
Alors que vous surfez en toute insouciance sur le web, des archivistes, plus ou moins officiels, s’affairent à sauvegarder l’expression de nos mémoires collectives en ligne. Enquête dans le monde souterrain d’un web éphémère en quête de postérité.
Reddit, mai 2021. Sur le site de partage de liens et de discussion, le redditor Shrine poste un appel : “Mission sauvetage de Sci-Hub et d’Open Science : nous sommes la bibliothèque”. Il fait partie des Data Hoarders, une communauté de 500 000 personnes sur Reddit qui partagent une passion pour la récolte massive de données.
Si les membres plaisantent que leur hobby est une “maladie numérique”, l’affaire est en fait plus sérieuse – ou du moins plus altruiste. A coups de centaines de téraoctets, les data-hoarders font des sauvegardes sauvages d’Internet. Une quête qui, comme nous allons le voir, n’est pas si vaine. (...)
Internet est en train de pourrir
Chaque seconde, Internet se désintègre. Michael L Nelson est enseignant chercheur à l’université Old Dominion University, en Virginie. Avec ses étudiants, il a effectué de nombreuses études sur la manière dont les informations disparaissent d’Internet. (...)
L’équipe de chercheurs a conclu qu’après la première année de publication, près de 11 % des ressources partagées sont perdues et continueront de se perdre à un rythme de 0,02 % par jour. (...)
L’équipe de chercheurs a conclu qu’après la première année de publication, près de 11 % des ressources partagées sont perdues et continueront de se perdre à un rythme de 0,02 % par jour. (...)
Michael Nelson le reconnaît, l’information sur Internet existe dans un paradoxe : d’un côté, Internet disparaît ; de l’autre, il n’oublie rien :
“La façon de réconcilier tout ça est de comprendre que l’information à une adresse ou URL donnée disparaît presque immédiatement. Mais en réalité, cette information est copiée à différents endroits et continue donc d’exister”. (...)
Michael Nelson le reconnaît, l’information sur Internet existe dans un paradoxe : d’un côté, Internet disparaît ; de l’autre, il n’oublie rien :
“La façon de réconcilier tout ça est de comprendre que l’information à une adresse ou URL donnée disparaît presque immédiatement. Mais en réalité, cette information est copiée à différents endroits et continue donc d’exister”. (...)
En français, on parle du phénomène de liens cassés – en anglais, link rot, les liens pourris. De nombreuses études ont été effectuées sur le phénomène (...)
sur 100 liens donnés, 10 ne fonctionnent plus au bout d’un an. “Cela tend à démontrer que ce n’est pas lié au contenu des pages mais à la mécanique des serveurs web” analyse le chercheur. Quant à la durée de vie d’une page web, “la question est plus difficile que vous pouvez le croire”, répond-t-il. Un chiffre souvent avancé est 44 jours en moyenne, bien qu’aucune étude récente n’ait été réalisée pour confirmer ce chiffre. (...)
“Il y a de nombreuses raisons pour lesquelles des liens disparaissent”, détaille Michael L. Nelson :
Les personnes peuvent supprimer elles-mêmes des contenus, comme des tweets ;
Des personnes ont complètement fermé un compte de réseau social – toutes les réponses, citations ou interactions seront désormais sorties de leur contexte ;
Des services entiers disparaissent. Par exemple, au début de Twitter celui-ci ne permettait pas d’héberger des images ou de raccourcir des liens. Tout un écosystème s’est donc créé. Il y a fort à parier que ces sites ont désormais disparu et avec eux le contenu qu’ils hébergeaient.
Certains contenus disparaissent par design, comme par exemple sur Ebay ou le Bon Coin ;
Pour des raisons légales, comme les droits d’auteurs sur YouTube.
Enfin, il y a le content drift (la dérive de contenu). Dans ce cas, le lien mène à un site qui fonctionne mais celui-ci n’a plus rien à voir avec le contenu de départ. Il est plus difficile à repérer et quantifier.
Des domaines clés de notre patrimoine numérique sont touchés. Le journalisme, donc, mais aussi le droit, par exemple (...)
Internet Archives, gardien de la mémoire d’Internet
Côté institutionnel, les archives du web ont leur géant : Internet Archives (IA), 25 ans, et son outil le plus fameux, la Wayback Machine, une machine à remonter le temps depuis 20 ans dans les archives du web. “C’est une mission d’importance cruciale pour notre société et nos générations futures”, expose pour CTRLZ Mark Graham, directeur de la Wayback Machine et à ce titre l’un de principaux gardiens de la mémoire d’Internet. “C’est une grande responsabilité et une dont on ne reconnaîtra probablement pas l’importance durant notre existence. Mais si nous faisons bien notre travail, les futures générations en profiteront”, insiste-t-il avant d’ajouter :
“Étant donné la masse de matière que les humains créent en formats numériques, c’est étonnant qu’il y ait aussi peu d’attention accordée à la préservation numérique.“ (...)
“La bibliothèque d’Alexandrie a brûlé, présente à l’époque Brewster Kahle, chemisettes et lunettes rondes typiques des pionniers de la tech de San Francisco, devant une machine à graver les données sur cassettes. Il faut préserver notre histoire numérique à différents endroits et sous différents régimes. (…) Nous pouvons de manière rentable stocker Internet en entier, qui est estimé entre 1 et 10 térabits”. Aujourd’hui, on parlerait plutôt en termes de Zettabits, soit 10006 térabits.
Pour sauvegarder Internet, IA a créé des liens avec de nombreux partenaires. “Nous archivons plus de un milliard d’URL par jour”, fait savoir Graham. Avec leurs robots d’indexation ou des équipes montées spécialement pour sauvegarder les contenus des plateformes à risque comme Yahoo Group ou Google Plus, ils parcourent plus de 100 000 sources d’informations, des plateformes populaires comme WordPress, enregistrent plus de 50 chaînes de télé 24h sur 24 et 7 jours sur 7, proposent 25 millions d’articles de recherches et autres documents scientifiques sur leur nouvelle plateforme Internet Archive Scholar. Ils collaborent également avec des bibliothèques, des musées, des gouvernements et le portail Wikipédia en 321 langages. Enfin, IA s’attache à archiver le web de pays moins tournés vers la question de l’archivage numérique avec le service Whole Earth Web Archive. (...)