Les articles générés par l’intelligence artificielle dépassent ceux écrits par des humains depuis fin 2024, d’après un rapport de Graphite. Plus de la moitié du trafic web est généré par des systèmes automatisés dont la majorité est mise en place par des acteurs malveillants, d’après une étude d’Imperva. Le tableau tire la sonnette d’alarme sur la désinformation due à l’intelligence artificielle.
Aucun secteur ne semble plus échapper au raz-de-marée de contenus produits en ligne par l’intelligence artificielle. Même l’univers de l’édition scientifique boit la tasse. La prolifération de références à des articles factices menace désormais de saper la légitimité de la recherche académique. La prolifération des contenus douteux est la résultante d’un phénomène appelé « hallucinations » dans l’univers de l’intelligence artificielle. Depuis 2022, ce terme est devenu le mot-clé qui résume les limites de l’IA générative. Derrière ce vocabulaire presque rassurant, se cache une réalité beaucoup plus problématique : les modèles de langage inventent des faits, produisent de fausses citations, ou bâtissent des raisonnements qui semblent logiques mais qui s’effondrent à la moindre vérification.
Même chez OpenAI on admet désormais que ce n’est pas un bogue. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité. (...)
Le contenu du Web est donc de moins en moins qualitatif
L’un des effets les plus inquiétants de la domination croissante de l’IA sur le Web est la détérioration progressive de la qualité du contenu en ligne. Ce phénomène repose sur un effet de boucle : les chatbots produisent du texte en s’appuyant sur de vastes ensembles de données extraites du Web. Jusqu’à récemment, ces données provenaient en grande partie de contenus rédigés par des humains : journalistes, chercheurs, blogueurs, experts de tous horizons.
Aujourd’hui, une portion croissante du contenu en ligne est elle-même générée par d’autres intelligences artificielles. Cela conduit à un problème connu sous le nom de « model collapse » (effondrement du modèle). En résumé, les nouveaux modèles d’IA s’entraînent sur du contenu produit par des modèles de la génération précédente, eux-mêmes formés sur d’autres contenus synthétiques. Ce recyclage progressif appauvrit la diversité, la nuance et l’originalité de l’information.
Les erreurs peuvent s’amplifier à chaque génération, les biais se renforcer, et le contenu devient moins fiable, moins contextualisé et souvent déconnecté de toute vérification humaine ou source primaire identifiable. Ce problème vient s’ajouter à la baisse considérable du trafic des sites Web d’information.
Enfin, si les chatbots d’IA deviennent les principales sources d’information consultées, sans accès direct aux documents originaux, les internautes pourraient progressivement perdre l’habitude de confronter les sources, de lire dans le contexte, ou d’interpréter de façon critique les données. Le Web se transformerait alors en une interface de réponses simplifiées, certes pratiques, mais de plus en plus superficielles. Le Web tel qu’on le connaît pourrait disparaître. (...)
La mort du Web a déjà été prédite - par les réseaux sociaux, puis par les applications - et n’a pas eu lieu. Mais c’est peut-être l’IA qui représente la plus grande menace à ce jour. Si le Web doit perdurer sous une forme proche de celle qu’il a aujourd’hui, les sites devront trouver de nouveaux moyens de se rémunérer.
Les internautes adoptent de plus en plus l’IA pour la recherche en ligne. « Il ne fait aucun doute que les gens préfèrent la recherche par IA. Et pour qu’Internet survive, pour que la démocratie survive, pour que les créateurs de contenu survivent, la recherche par IA doit partager les revenus avec les créateurs », a déclaré Bill Gross. Pour l’instant, les entreprises d’IA font valoir que l’entraînement de l’IA sur des œuvres protégées est un usage loyal.
(...) (...) (...) (...)
Le fait est que les LLM IA auront toujours des hallucinations et l’on devrait donc s’attendre à une aggravation de la situation actuelle marquée par la désinformation. (...)