
Près de 150 sites de news générés par intelligence artificielle, repérés par une enquête de Next et Libération, figurent parmi les sources d’articles dans Wikipédia en français.
Assurer la maintenance de Wikipédia, c’est comme faire le ménage dans le monde physique, toujours à recommencer. L’encyclopédie libre née en 2001 doit constamment faire face aux contributeurs mercenaires – publicitaires, petites mains de responsables politiques et autres -, à ceux/celles voulant ripoliner "leur" article et en effacer les mentions gênantes pour eux, aux militants clandestins qui tentent de biaiser des articles liés à leur champion (cas d’infiltrés pro-Zemmour par exemple) etc. (...)
Des sites parasites par centaines
Et voici qu’une nouvelle source de pollution vient d’être repérée : les sites parasites d’actualités, aux articles produits à la chaîne par intelligence artificielle. À l’origine de cette découverte, explique un wikipédien, Jules, dans une section de Wikipédia dédiée aux sources (une recommandation importante de l’encyclopédie est « citez vos sources »), il y a une enquête menée par le journaliste Jean-Marc Manach pour le site Next, « qui au cours d’une enquête a découvert plusieurs centaines de sites web utilisant des IA génératives (abrégées genAI). (…) Il a proposé à Jules de lui fournir la liste des sites web identifiés afin de déterminer lesquels sont utilisés sur Wikipédia, la liste étant soumise à embargo jusqu’à publication de l’enquête de presse. »
Cette vaste enquête, en partenariat avec Libération (plusieurs liens à partir de celui ci, dont ce grand article – réservé aux abonnés – sur Next ; un résumé là) a montré qu’au moins un millier de sites d’actualité sans journalistes diffusent des contenus générés par intelligence artificielle. Ces articles sont souvent réalisés par plagiat de la presse traditionnelle, voire inventés, et dissimulent leur fonctionnement (noms d’auteur fictif par exemple). (...)
148 sites analysés, et 284 autres à vérifier (...)
Résultat de ce labeur, « sur 148 sites analysés : 105 ont recours à de l’IA pour la rédaction des textes ; 65 recourent au plagiat (avec ou sans traduction, avec ou sans reformulation par IA) ; 81 ne sont pas transparents (pas de mentions légales, mentions mensongères, auteurs fictifs, etc.) ; 51 sont des sites vampirisés ; 7 ont fait l’objet de spam sur Wikipédia ; 18 ont servi à des modifications promotionnelles sur Wikipédia ; 2 sont clairement des faux-positifs. »
L’enquête détaillée des deux wikipédiens est exposée là. « Pour chaque site examiné, nous avons indiqué ce que nous préconisons que la communauté fasse : mise en liste noire, suppression des liens, remplacement des liens par une version archivée (lorsque les liens ne sont plus accessibles, que le site a été « vampirisé », et que c’était auparavant une source acceptable). »
Un gros travail de nettoyage va donc suivre pour la communauté de l’encyclopédie, non limité à ces 148 premiers sites (...)
Comme on le voit, les balais et serpillères numériques n’ont pas fini de servir dans Wikipédia.