
Vendredi dernier, Twitter a publié le code source de son algorithme de recommandation sur GitHub. Twitter a déclaré qu’il mettait son algorithme en "open source", ce à quoi je suis généralement favorable. Les algorithmes de recommandation et le code source ouvert sont au cœur de mon travail de chercheur et de défenseur de la responsabilité des entreprises dans l’industrie technologique. Mes recherches ont démontré pourquoi et comment des entreprises comme YouTube devraient être plus transparentes sur le fonctionnement interne de leurs algorithmes de recommandation, et j’ai mené des campagnes pour les inciter à le faire. Mozilla, l’organisation à but non lucratif dont je suis l’un des principaux membres, a ouvert le code du navigateur Netscape et invité une communauté de développeurs du monde entier à y contribuer en 1998, et n’a cessé de militer en faveur d’un internet ouvert depuis lors. Alors pourquoi ne suis-je pas impressionné ou enthousiasmé par la décision de Musk ?
Le soi-disant "open sourcing" de Twitter n’est en fait qu’une habile diversion pour détourner l’attention des récentes mesures prises par l’entreprise en matière de transparence. Il y a quelques semaines, Twitter a discrètement annoncé qu’il fermait la version gratuite de son API, un outil sur lequel les chercheurs du monde entier s’appuient depuis des années pour mener des recherches sur les contenus préjudiciables, la désinformation, la santé publique, la surveillance des élections, le comportement politique, etc. L’outil qui le remplace coûtera désormais aux chercheurs et aux développeurs entre 42 000 et 210 000 dollars par mois. La décision de Twitter a attiré l’attention des législateurs et des organisations de la société civile (notamment la Coalition for Independent Tech Research, dont je suis membre du conseil d’administration), qui l’ont condamnée.
L’ironie de la chose, c’est que bon nombre des questions soulevées au cours du week-end lors de l’analyse du code source ont pu être testées par l’outil même que Twitter est en train de désactiver. Par exemple, des chercheurs ont supposé que le paramètre "UkraineCrisisTopic" trouvé dans le code source de Twitter était un signal permettant à l’algorithme de rétrograder les tweets faisant référence à l’invasion de l’Ukraine. En utilisant l’API de Twitter, les chercheurs auraient pu récupérer les tweets relatifs à l’invasion de l’Ukraine et analyser leur engagement pour déterminer si l’algorithme les amplifiait ou les désamplifiait. Des outils comme ceux-ci permettent au public de confirmer ou d’infirmer de manière indépendante les pépites d’informations fournies par le code source. Sans eux, nous sommes à la merci de ce que Twitter nous dit être vrai.
Le coup d’éclat de Twitter n’est que le dernier exemple en date d’un lavage de transparence de la part de l’industrie technologique. En 2020, TikTok a également utilisé les mots "code source" pour éblouir les régulateurs américains et européens qui exigeaient plus de transparence sur le fonctionnement de la plateforme. C’est la première plateforme à annoncer l’ouverture de "centres de transparence" physiques, censés "permettre aux experts d’examiner et de vérifier les pratiques de TikTok". En 2021, j’ai participé à une visite virtuelle du Centre, qui s’est résumée à une présentation Powerpoint du personnel politique de TikTok expliquant le fonctionnement de l’application et passant en revue les politiques de modération de contenu déjà publiques. Trois ans plus tard, les centres sont toujours fermés au public (le site web de TikTok en donne la raison : la pandémie) et TikTok n’a pas publié de code source.
Si Musk avait vraiment voulu responsabiliser l’algorithme de Twitter, il aurait pu le rendre non seulement transparent, mais aussi vérifiable. Il aurait pu, par exemple, créer des outils permettant de simuler les résultats d’un système algorithmique en fonction d’une série d’entrées. Cela permettrait aux chercheurs de mener des expériences contrôlées pour tester la manière dont les systèmes de recommandation classent le contenu réel. Ces outils devraient être mis à la disposition des chercheurs qui travaillent dans l’intérêt général (et, bien sûr, qui peuvent démontrer que leurs méthodes respectent la vie privée des personnes) pour un coût faible ou nul.
Il y a de bonnes nouvelles sur ce front : La loi européenne sur les services numériques, qui devrait entrer en vigueur pour les très grandes plateformes en ligne dès cet été, obligera ces dernières à effectuer des audits de leurs algorithmes par des tiers afin de s’assurer qu’ils ne risquent pas de nuire aux personnes. Le type de données qui sera exigé pour ces audits va bien au-delà de ce que Twitter, TikTok ou toute autre plateforme fournit actuellement.
La publication du code source a été une décision audacieuse mais précipitée, à laquelle Twitter lui-même ne semblait pas préparé : Le dépôt GitHub a été mis à jour au moins deux fois depuis la publication pour supprimer des parties embarrassantes du code qui n’étaient probablement pas destinées à être rendues publiques. Si le code source révèle la logique sous-jacente d’un système algorithmique, il ne nous dit presque rien sur la manière dont le système fonctionnera en temps réel, sur de vrais tweets. La décision d’Elon Musk nous empêche de savoir ce qui se passe en ce moment sur la plateforme, ou ce qui pourrait se passer par la suite.