Bandeau
mcInform@ctions
Travail de fourmi, effet papillon...
Descriptif du site
ars technica (traduction DeepL.com/Translator)
OpenAI admet que les mesures de protection de ChatGPT échouent lors de conversations prolongées
#OpenAI #ChatGPT
Article mis en ligne le 9 septembre 2025
dernière modification le 27 août 2025

Adam Raine a appris à contourner ces mesures de protection en prétendant qu’il écrivait une histoire - une technique suggérée par ChatGPT lui-même, selon le procès. Cette vulnérabilité découle en partie de l’assouplissement des mesures de protection concernant les jeux de rôle et les scénarios fictifs mis en place en février. Dans son billet de blog de mardi, OpenAI a admis que ses systèmes de blocage de contenu présentent des lacunes où "le classificateur sous-estime la gravité de ce qu’il voit".

OpenAI déclare qu’elle "ne transmet pas actuellement les cas d’automutilation aux forces de l’ordre afin de respecter la vie privée des personnes, compte tenu de la nature privée unique des interactions ChatGPT". L’entreprise donne la priorité à la vie privée des utilisateurs, même dans les situations qui mettent leur vie en danger, bien que sa technologie de modération détecte les contenus d’automutilation avec une précision allant jusqu’à 99,8 %, selon l’action en justice. Cependant, la réalité est que les systèmes de détection identifient des modèles statistiques associés au langage d’automutilation, et non une compréhension humaine des situations de crise.

Le plan de sécurité d’OpenAI pour l’avenir

En réponse à ces échecs, OpenAI décrit les améliorations en cours et les projets futurs dans son billet de blog. Par exemple, l’entreprise indique qu’elle consulte "plus de 90 médecins dans plus de 30 pays" et qu’elle prévoit d’introduire des contrôles parentaux "bientôt", bien qu’aucun calendrier n’ait encore été fourni.

OpenAI a également décrit des plans pour "connecter les gens à des thérapeutes certifiés" par l’intermédiaire de ChatGPT - positionnant essentiellement son chatbot comme une plateforme de santé mentale malgré les échecs présumés comme le cas de Raine. L’entreprise souhaite construire "un réseau de professionnels agréés que les gens pourraient contacter directement par l’intermédiaire de ChatGPT", ce qui pourrait renforcer l’idée qu’un système d’IA devrait servir de médiateur dans les crises de santé mentale.

Raine aurait utilisé le modèle GPT-4o pour générer les instructions d’assistance au suicide ; ce modèle est bien connu pour ses tendances inquiétantes comme la flagornerie, qui consiste pour un modèle d’IA à dire aux utilisateurs des choses agréables même si elles ne sont pas vraies. OpenAI affirme que son modèle récemment publié, GPT-5, réduit "les réponses non idéales du modèle dans les urgences de santé mentale de plus de 25 % par rapport à 4o". Cette amélioration apparemment marginale n’a pas empêché l’entreprise de planifier l’intégration de ChatGPT encore plus profondément dans les services de santé mentale, en tant que passerelle vers les thérapeutes.

Comme Ars l’a exploré précédemment, se libérer de l’influence d’un chatbot IA lorsqu’on est coincé dans une spirale de conversation trompeuse nécessite souvent une intervention extérieure. Démarrer une nouvelle session de chat sans avoir désactivé l’historique et les souvenirs de la conversation peut révéler comment les réponses changent sans l’accumulation des échanges précédents - une vérification de la réalité qui devient impossible dans de longues conversations isolées où les protections se détériorent.

Cependant, il est très difficile de "s’affranchir" de ce contexte lorsque l’utilisateur souhaite activement continuer à adopter un comportement potentiellement préjudiciable, tout en utilisant un système qui monétise de plus en plus son attention et son intimité.