Alors que vous surfez en toute insouciance sur le web, des archivistes, plus ou moins officiels, s’affairent à sauvegarder l’expression de nos mémoires collectives en ligne. Enquête dans le monde souterrain d’un web éphémère en quête de postérité.
Reddit, mai 2021. Sur le site de partage de liens et de discussion, le redditor Shrine poste un appel : “Mission sauvetage de Sci-Hub et d’Open Science : nous sommes la bibliothèque”. Il fait partie des Data Hoarders, une communauté de 500 000 personnes sur Reddit qui partagent une passion pour la récolte massive de données.
Si les membres plaisantent que leur hobby est une “maladie numérique”, l’affaire est en fait plus sérieuse – ou du moins plus altruiste. A coups de centaines de téraoctets, les data-hoarders font des sauvegardes sauvages d’Internet. Une quête qui, comme nous allons le voir, n’est pas si vaine.
Pour cette tâche titanesque, les hoarders organisent des “raids”. Ici, c’est Sci-Hub, un portail illégal permettant un accès mondial et gratuit aux recherches scientifiques, que la communauté veut sauver. Là, les contenus NSFW de Tumblr, devenus persona non grata sur la plateforme. Ailleurs encore, la chaîne Youtube de Martin O’Donnell, compositeur des musiques des jeux de la série Halo et de la saga Myth, en bisbille légale avec le studio Bungie et menacé de devoir fermer sa chaîne.
La plupart des missions se concentrent sur le “seeding généreux” (le seeding est l’action de mise en téléchargement en pair à pair). “Mais c’est toujours à posteriori que l’on se rend compte de la valeur d’archives de quelque chose”, nous raconte Shrine, un américain (si l’on en croit son accent) à l’origine du raid Sci-Hub et qui souhaite rester anonyme. TikTok par exemple, faisait l’objet de beaucoup de conversations au sein de la communauté”, raconte-t-il et aussi de moqueries, mais “maintenant, on se rend compte que quelque chose s’y passe, qu’il y a de l’activisme politique, des gens qui documentent des manifestations ou les événements qui se déroulent dans leurs universités. Peut-être, en effet, que ça vaut le coup de le sauvegarder”.
Internet est en train de pourrir
Chaque seconde, Internet se désintègre. Michael L Nelson est enseignant chercheur à l’université Old Dominion University, en Virginie. Avec ses étudiants, il a effectué de nombreuses études sur la manière dont les informations disparaissent d’Internet. En 2012, il publiait notamment “Losing My Revolution : How Many Resources Shared on Social Media Have Been Lost” (“Perdre ma révolution : comment de nombreuses ressources partagées sur les médias sociaux ont été perdues”), où il pistait des événements importants dont une grande partie des commentaires se sont déroulées sur les réseaux sociaux : l’épidémie de H1N1, la mort de Michael Jackson, la révolution égyptienne ou encore le soulèvement syrien. L’équipe de chercheurs a conclu qu’après la première année de publication, près de 11 % des ressources partagées sont perdues et continueront de se perdre à un rythme de 0,02 % par jour.

Michael Nelson le reconnaît, l’information sur Internet existe dans un paradoxe : d’un côté, Internet disparaît ; de l’autre, il n’oublie rien :
“La façon de réconcilier tout ça est de comprendre que l’information à une adresse ou URL donnée disparaît presque immédiatement. Mais en réalité, cette information est copiée à différents endroits et continue donc d’exister”.
Il prend l’exemple d’une vidéo sur Youtube publiée sans les droits d’auteurs. Si vous essayez d’accéder à cette chanson via son URL, il y a de grande chance que celle-ci ait disparu mais la chanson existe toujours sur YouTube. Ailleurs, sur un autre lien.
En français, on parle du phénomène de liens cassés – en anglais, link rot, les liens pourris. De nombreuses études ont été effectuées sur le phénomène et toutes concluent à un taux de pourrissement similaire à celui de Michael L Nelson : 10 % la première année. En d’autres termes, sur 100 liens donnés, 10 ne fonctionnent plus au bout d’un an. “Cela tend à démontrer que ce n’est pas lié au contenu des pages mais à la mécanique des serveurs web” analyse le chercheur. Quant à la durée de vie d’une page web, “la question est plus difficile que vous pouvez le croire”, répond-t-il. Un chiffre souvent avancé est 44 jours en moyenne, bien qu’aucune étude récente n’ait été réalisée pour confirmer ce chiffre. Selon Michael L. Nelson, celle-ci serait dans les tuyaux.
La dernière étude en date sur le phénomène de link rot a été effectuée par Jonathan Zittrain, professeur à Harvard et sommité du domaine. Avec l’équipe numérique du New York Times, il a observé les hyperliens externes (qui renvoient vers d’autres sites que celui du journal, Ndlr.) des articles publiés par le journal depuis 1996, soit environ 550 000 articles et 2,2 millions de liens. Résultat, un quart de ces liens étaient désormais pourris.
“Il y a de nombreuses raisons pour lesquelles des liens disparaissent”, détaille Michael L. Nelson :
- Les personnes peuvent supprimer elles-mêmes des contenus, comme des tweets ;
- Des personnes ont complètement fermé un compte de réseau social – toutes les réponses, citations ou interactions seront désormais sorties de leur contexte ;
- Des services entiers disparaissent. Par exemple, au début de Twitter celui-ci ne permettait pas d’héberger des images ou de raccourcir des liens. Tout un écosystème s’est donc créé. Il y a fort à parier que ces sites ont désormais disparu et avec eux le contenu qu’ils hébergeaient.
- Certains contenus disparaissent par design, comme par exemple sur Ebay ou le Bon Coin ;
- Pour des raisons légales, comme les droits d’auteurs sur YouTube.
- Enfin, il y a le content drift (la dérive de contenu). Dans ce cas, le lien mène à un site qui fonctionne mais celui-ci n’a plus rien à voir avec le contenu de départ. Il est plus difficile à repérer et quantifier.
Des domaines clés de notre patrimoine numérique sont touchés. Le journalisme, donc, mais aussi le droit, par exemple. Dans les journaux juridiques, environ 70 % des liens de comparutions publiés entre 1999 et 2011 ne fonctionnent plus. Pour pallier ce phénomène, l’Université de Harvard a lancé Perma.cc, un protocole pour créer des liens qui ne cassent pas. Dans la recherche, les scientifiques s’engagent à utiliser le protocole DOI, pour Digital Object Identifier (Identifiant numérique d’objet) pour assurer une identification pérenne aux documents. Wikipédia a également un partenariat avec Internet Archives pour s’assurer que les liens de références sont consultables sur le long terme.
La galère des réseaux sociaux
Pour observer le délitement du web, Michael Nelson a notamment scruté Twitter qui est “particulièrement dur à archiver”, reconnaît-il. Et ce, entre autres, pour des raisons techniques : Twitter est passé d’un script fixe en HTML à un script hybride composé de Javascript pour sa timeline, dynamique et donc plus difficile à capturer. L’un des contournements consiste à capturer le contenu en plusieurs fois : une première fois pour le cadre (bio, photo de profil etc.), une seconde fois pour la timeline. Mais cette solution risque de faire apparaître un phénomène de “violation temporelle”, où les deux captures ne correspondent pas à une même date et provoquent une incohérence temporelle. Autre contournement, capturer une version visible par les bots, comme ceux de Google qui scannent Twitter pour l’indexer dans ses résultats de recherche. “Mais alors on archive une version qui n’est jamais visible pour les humains. Ça pose des questions philosophiques”, poursuit le chercheur.
En règle générale, tous les réseaux sociaux sont difficiles à archiver. Pour Facebook par exemple, la majorité des interactions se passent dans des groupes fermés. Or, les institutions en charge des archives du web ne capturent que le “web public”, soit celui accessible sans identifiants. Les applications mobiles sont plus fermées encore.
“Toute cette dimension de l’Internet non public est un vrai défi pour la pérennisation du web, estime Sophie Gebeil, historienne spécialiste des récits mémoriels en ligne. Peut-être aussi faut-il en faire le deuil ? Doit-on garder et conserver toutes nos conversations WhatsApp ?”. Reste que “toutes ces traces en ligne sont des traces de notre histoire, de notre vécu à l’instant T, reconnaît-elle. Cela pose des questions sur ce qu’il faut conserver”.
C’est là, peut-être, que les data-hoarders ou autres archivistes citoyens voire militants entrent en jeu. “Ces collectes amatrices sont extrêmement importantes, affirme l’historienne. Valérie Schafer (historienne spécialiste de l’histoire d’Internet, Ndlr.) s’est appuyée sur les newsgroups des années 1990 pour son histoire du Web français. Anat Ben-David a quant à elle reconstitué le web yougoslave, le .yu, disparu à la fin de la Yougoslavie. Elle a mobilisé des collectes amatrices, sûrement militantes, pour reconstituer une cartographie de ce web”. Dans la pratique des historiens, ce recours aux archives amatrices n’est pas nouveau. Seulement, “désormais, il faut avoir des compétences techniques, dispose Sophie Gebeil. Ce sont donc de nouveaux acteurs”.
Internet Archives, gardien de la mémoire d’Internet
Côté institutionnel, les archives du web ont leur géant : Internet Archives (IA), 25 ans, et son outil le plus fameux, la Wayback Machine, une machine à remonter le temps depuis 20 ans dans les archives du web. “C’est une mission d’importance cruciale pour notre société et nos générations futures”, expose pour CTRLZ Mark Graham, directeur de la Wayback Machine et à ce titre l’un de principaux gardiens de la mémoire d’Internet. “C’est une grande responsabilité et une dont on ne reconnaîtra probablement pas l’importance durant notre existence. Mais si nous faisons bien notre travail, les futures générations en profiteront”, insiste-t-il avant d’ajouter :
“Étant donné la masse de matière que les humains créent en formats numériques, c’est étonnant qu’il y ait aussi peu d’attention accordée à la préservation numérique.“
Le créateur de IA, Brewster Kahle, est un pionnier d’Internet : à la fin des années 80, il développe le premier système de publication sur Internet, Wide Area Information Servers (WAIS) puis invente en 1996 Alexa Internet, qu’il vend trois ans plus tard à Amazon. Cette même année 1996, Brewster Kahle fonde Internet Archives (IA).
“La bibliothèque d’Alexandrie a brûlé, présente à l’époque Brewster Kahle, chemisettes et lunettes rondes typiques des pionniers de la tech de San Francisco, devant une machine à graver les données sur cassettes. Il faut préserver notre histoire numérique à différents endroits et sous différents régimes. (…) Nous pouvons de manière rentable stocker Internet en entier, qui est estimé entre 1 et 10 térabits”. Aujourd’hui, on parlerait plutôt en termes de Zettabits, soit 10006 térabits.
Pour sauvegarder Internet, IA a créé des liens avec de nombreux partenaires. “Nous archivons plus de un milliard d’URL par jour”, fait savoir Graham. Avec leurs robots d’indexation ou des équipes montées spécialement pour sauvegarder les contenus des plateformes à risque comme Yahoo Group ou Google Plus, ils parcourent plus de 100 000 sources d’informations, des plateformes populaires comme WordPress, enregistrent plus de 50 chaînes de télé 24h sur 24 et 7 jours sur 7, proposent 25 millions d’articles de recherches et autres documents scientifiques sur leur nouvelle plateforme Internet Archive Scholar. Ils collaborent également avec des bibliothèques, des musées, des gouvernements et le portail Wikipédia en 321 langages. Enfin, IA s’attache à archiver le web de pays moins tournés vers la question de l’archivage numérique avec le service Whole Earth Web Archive.
Les utilisateurs peuvent aussi sauver leurs adresses favorites du web, ou les infos qui leurs semblent en danger de disparaître : ce seul service est responsable de la sauvegarde de 30 millions d’URL, et d’autant de points d’intérêts que d’utilisateurs, commente Mark Graham. “J’ai essayé de trouver des patterns pour savoir ce qu’ils sauvegardent, mais ce sont les patterns du web. Vous avez l’éventail entier des expressions humaines et de ce qui intéresse les gens : tout ce que vous pouvez imaginer et plus encore”.
Internet Archives est la première et la plus grosse initiative de ce genre, mais elle est loin d’être la seule. Les Etats notamment en Europe, prennent en main leurs propres archives. En France, la Bibliothèque nationale de France a son service de dépôt légal numérique, structuré légalement depuis 2006. “La mission du bibliothécaire et du conservateur est de garantir que nous constituons la mémoire du monde. Le patrimoine numérique rentre pleinement dans cette mission, nous précise Vladimir Tybin, chef de service du dépôt légal numérique à la BNF. Notre objectif est que dans 50 ou 100 ans, des chercheurs puissent trouver des pages du Bon Coin et s’en servir pour des projets de recherche. On ne peut pas préjuger du contenu”.
La BNF fait faire à son robot Heritrix une collecte à deux niveaux : la première tend à l’exhaustivité des noms de domaine, la seconde est une sélection des sites représentatifs et culturellement importants et dans lesquels la BNF va faire une moisson plus profonde. L’ensemble des données collectées par la BNF depuis le début des années 90, lorsque l’institution a commencé son archivage numérique, représente à ce jour 1,41 pétaoctet, soit 1410 téraoctet.
Se souvenir de l'”âge d’or du web-design”
On sauve aussi le web avec l’œil sélectif du curateur. Ainsi du Web Design Museum (WDM), excellent musée en ligne qui expose les sites web aux designs les plus caractéristiques de leur époque, entre 1991 et 2006, “l’âge d’or du web-design”, estime son créateur, Petr Kovář, historien de formation devenu web-designer.

Lancé en 2017, le WDM propose différentes visites thématiques : des collections de sites web de musicien ou de sites “pour adultes”, des moteurs de recherches des années 90 ou les Googles doodles à travers les âges. Un archivage du web-design qui n’a rien de supperflu, nous confirme le fondateur du WDM :
“Quand je parlais à des collègues plus jeunes, je me rendais compte que la génération actuelle de web-designer et d’internautes, ceux qui ont la vingtaine ou la trentaine, ont seulement une vague idée de ce à quoi ressemblaient les sites internet dans les années 90, ou quelles étaient les tendances graphiques au tournant du millénaire”
Le web-designer reconnait que les enjeux du design de site ont quelque peu évolué : “Désormais, le web design met l’accent sur l’accessibilité, l’applicabilité et l’UX au détriment de l’originalité visuelle. Ce n’est pas nécessairement une mauvaise chose, mais cela explique que de nombreux sites ont l’air calqués sur les mêmes modèles”.
Esthétique clé des années 90, WDM présente une large sélection de sites Flash, cette technologie utilisée pour créer des jeux vidéo gratuits et mettre les sites en animation, officiellement défunte le 31 décembre 2020. “La fin de Flash était inévitable, reconnaît le curateur. Mais de nombreux sites créés en Flash ont atteint un niveau technique et esthétique difficile à imiter, même avec notre technologie actuelle“. Petr Kovář a sauvé ces animations en vidéo sur sa chaîne Youtube, un format qui ne permet malheureusement pas d’interagir avec le design. IA, elle, a mis au point un émulateur pour permettre de lire la plupart des sites qui utilisaient cette technologie.
Autre site iconique des débuts d’Internet disparu : GeoCities un service d’hébergement web gratuit, fondé en 1994 et racheté par Yahoo ! En 1999. On y trouvait des bijoux de sites, comme le Cute Boy Site où les filles et les garçons votaient pour le garçon mignon du mois, une recension minimaliste des groupes qui ne sont pas punk (malgré des noms comme Sex Offenders et Naked Aggression) ou l’incontournable fanpage de Leonardo Dicaprio <3.
Avant sa disparition, les artistes Olia Lialina et Dragan Espenschied ont sauvegardé et documenté des milliers de captures d’écran de ces sites sur leur blog One Terabyte of Kilobyte Age. De quoi se rappeler à travers les âges la pré-adolescence frivole et créative d’un web devenu bien sérieux.






