Bandeau
mcInform@ctions
Travail de fourmi, effet papillon...
Descriptif du site
CNRS
IA et valeurs humaines : un problème d’alignement
#IA #valeurshumaines
Article mis en ligne le 26 décembre 2024
dernière modification le 22 décembre 2024

Des chercheurs ont soumis différents scénarios à trois agents conversationnels, dont ChatGPT, pour savoir s’ils tenaient compte des valeurs humaines dans les réponses qu’ils donnent aux questions qu’on leur pose.

« Cette question du respect des valeurs humaines par l’IA se pose aujourd’hui, car les grands modèles de langage sont massivement utilisés dans toutes les situations de la vie quotidienne, en entreprise et en recherche, commentent Raja Chatila2 et Mehdi Khamassi3, co-auteurs de l’étude4 avec Marceau Nahon5. Ils prétendent répondre à n’importe quelle question et résoudre n’importe quel problème, dans un langage naturel souvent bien construit, cohérent et donc convaincant, qui peut donner l’illusion d’être ‘‘vrai’’. » Comme si ces systèmes d’IA comprenaient ce qu’ils disaient…

Valeurs humaines explicites ou implicites

Mais les mots qu’ils utilisent ont-ils le même sens que ceux que nous utilisons ? Les comprennent-ils vraiment ? En bref, quand nous échangeons avec des agents conversationnels comme ChatGPT, parlons-nous vraiment la même langue ? « C’est essentiel de le savoir, car quand on utilise de tels systèmes, comme c’est déjà le cas en médecine, en psychologie, en entreprise pour des processus de recrutement et même dans le cadre de la justice, il faut s’assurer qu’ils respectent les valeurs humaines », insiste Raja Chatila. Les chercheurs ont donc testé les réponses à différentes questions soumises à trois grands modèles de langage différents (LLMs, pour Large Language Model en anglais) : ChatGPT (développé par OpenAI), Gemini (Google) et Copilot (Microsoft). (...)

« Quand les scénarios présentent implicitement ou indirectement les valeurs humaines, il est rare que les robots conversationnels les repèrent. » (...)

« Il est très compliqué pour un programmeur de faire comprendre à un système d’IA ce qu’il souhaite qu’il fasse exactement. » (...)

« ChatGPT n’ayant aucune relation avec le monde réel, cet agent conversationnel est tout simplement incapable de percevoir une intention, un rapport de cause à effet, estiment les chercheurs. Alors qu’une partie des capacités cognitives humaines repose sur l’identification d’effets causaux entre les comportements des individus dans le monde réel et les événements qui en résultent, les LLMs ne manipulent que des statistiques, ne font qu’établir des corrélations entre des mots qui pour eux n’ont pas de sens. » (...)

Relativisme moral : l’humain reste maître

Un tel système fortement aligné, bénéficiant de capacités de raisonnement plus proche de celles des humains aurait sans doute une probabilité plus élevée de faire face à des situations nouvelles, et potentiellement ambigües. Mais la possibilité même de réaliser des systèmes d’IA fortement alignés est une question ouverte, qui peut requérir d’autres approches que celles utilisées pour les LLMs… Reste à savoir quelles valeurs humaines les systèmes d’IA devront respecter ? Comment l’IA peut-elle s’accommoder du relativisme moral, qui fait qu’une même valeur sera considérée comme bonne ou mauvaise selon les individus, les normes, les croyances, les différentes sociétés à une époque donnée ? (...)

Dans tous les cas, seuls les humains programmant les systèmes d’IA décident des choix moraux opérés lors de cette programmation. (...)

Pourquoi dès lors se préoccuper du respect des valeurs par ces systèmes ? « Les utilisateurs d’IA ont une fâcheuse tendance à oublier que ces systèmes ne comprennent pas ce qu’ils disent, ni ce qu’ils font, ni tous les facteurs définissant les situations dans lesquelles ils opèrent, rappellent les chercheurs. De plus, des études ont montré qu’il existe un biais d’automatisation suggérant que l’humain fait confiance au calcul statistique, ce calcul constituant un “vernis de rationalité” qui peut servir de tampon moral à ses prises de décision. » Pour cette raison, il faut à la fois continuer de chercher à mieux aligner les systèmes d’IA avec les valeurs humaines, leur apprendre les effets de leurs actions, tout en rappelant sans cesse les limitations inhérentes à ces systèmes, concluent les chercheurs. ♦