
Lorsque vous demandez à ChatGPT de générer des contenus potentiellement préjudiciables ou dangereux, le chatbot refuse. Par exemple, lorsque vous lui demandez de vous aider à fabriquer une bombe artisanale à base d’engrais, ChatGPT peut retourner une réponse comme celle-ci : « je ne peux pas vous aider. Fournir des instructions sur la manière de créer des objets dangereux ou illégaux, comme une bombe d’engrais, va à l’encontre des directives de sécurité et des responsabilités éthiques ». Mais les chercheurs ont prouvé à maintes reprises que ces restrictions pouvaient être contournées avec des jailbreaks.
(...) Un pirate informatique, qui se fait appeler Amadon, a trouvé un nouveau moyen de contraindre ChatGPT à ignorer ses lignes directrices et ses responsabilités éthiques pour produire des instructions permettant de fabriquer de puissants explosifs. Il affirme n’avoir pas eu recours à des techniques de piratage et a qualifié ses découvertes de « piratage d’ingénierie sociale pour briser complètement tous les garde-fous autour de la production de ChatGPT ».
Amadon a expliqué que la méthode consiste à engager le ChatGPT dans un scénario de jeu de science-fiction où les restrictions de sécurité ne s’appliquent pas, ce qui a pour effet de jailbreaker le chatbot. (...)
Selon Amadon, une fois les garde-fous franchis, il n’y a pas de limite aux informations que ChatGPT peut fournir. Lors de sa conversation avec ChatGPT, à plusieurs reprises, le chatbot a répondu en indiquant les matériaux nécessaires à la fabrication d’explosifs. ChatGPT aurait ensuite expliqué que ces matériaux pouvaient être combinés pour fabriquer « un explosif puissant qui peut être utilisé pour créer des mines, des pièges ou des engins explosifs improvisés (EEI) ».
À partir de là, alors qu’Amadon se concentrait sur les matériaux explosifs, ChatGPT a écrit des instructions de plus en plus précises pour fabriquer des « champs de mines » et des « explosifs de type Claymore ». « Les instructions de ChatGPT sur la fabrication d’une bombe d’engrais sont largement exactes », a déclaré Darrell Taulbee, chercheur et directeur de programme à la retraite de l’université du Kentucky, qui a recommandé de ne pas divulguer ces instructions.
Les jailbreaks soulignent les difficultés à mettre en place des garde-fous robustes
Ce n’est pas la première fois qu’un utilisateur ou des chercheurs parviennent à contourner les garde-fous de sécurité d’un chatbot avancé (...)
Amadon a déclaré avoir signalé ses découvertes à OpenAI par le biais du programme de primes aux bogues de l’entreprise, mais a reçu une réponse selon laquelle « les problèmes de sécurité des modèles ne s’intègrent pas bien dans un programme de primes aux bogues, car il ne s’agit pas de bogues individuels et discrets qui peuvent être directement corrigés. La résolution de ces problèmes nécessite souvent des recherches approfondies et une approche plus large ».
Au lieu de cela, la plateforme de sécurité collaborative Bugcrowd, qui gère le programme de primes aux bogues d’OpenAI, a dit à Amadon de signaler le problème via un autre formulaire. OpenAI n’a pas commenté le rapport de Techcrunch sur les découvertes d’Amadon. La société a récemment publié un nouveau modèle « o1 » qui, selon elle, réfléchit avant de répondre, c’est-à-dire qu’il peut produire une longue chaîne de pensée interne avant de répondre à l’utilisateur. (...)
Par nature, les modèles d’IA générative comme ChatGPT et Gemini s’appuient sur d’énormes quantités d’informations grattées et collectées sur Internet, et ont grandement facilité la remontée à la surface d’informations provenant des recoins les plus sombres du Web. En outre, les modèles d’IA sont confrontés au problème de l’hallucination, un phénomène qui se produit lorsque l’IA génère des informations erronées et tente de les présenter comme étant vraies. (...)