Pourquoi archiver le Web ?
C’est par la loi du 1er août 2006 sur le Droit d’auteur et les droits voisins dans la société de l’information (DADVSI), dont les décrets d’application ont été publiés en décembre 2011, qu’un dépôt légal de l’internet a été mis en place en France. Cette assise juridique a permis de définir les contours de la mission confiée d’une part à l’INA et d’autre part à la BnF en matière d’archivage patrimonial de l’Internet.
Cette loi répond à l’importance croissante des médias numériques dans la vie des citoyens, ainsi qu'aux nouveaux modes de diffusion des médias, obligeant les institutions patrimoniales à inventer les outils permettant d’en garder une trace pour l’avenir.
45 000 sources web conservées
Plus de 16 069 sites web médias (104 milliards de versions d'URL depuis 1996) sont aujourd’hui conservés à l’INA au titre du dépôt légal du Web. Ils sont collectés selon une fréquence et une profondeur adaptée à la mise à jour et à la taille de chaque site. La nature du web, volatile et réactive, nécessite de fait un travail assidu de veille prospective afin de maintenir à jour et d’enrichir le périmètre des sites archivés dans la continuité et la cohérence des collections.
Suivant les évolutions des modes de publication sur le web, la collecte et la conservation se sont étendues aux publications textuelles et vidéos de 25 000 comptes d’utilisateur liés au domaine média depuis des plateformes de réseaux sociaux et de publication vidéo telles que Twitter, YouTube ou encore Dailymotion, ainsi qu’aux flux continus de 30 radios web, de plus de 1 500 mot-dièses, et de 5 300 émissions de podcasts.
Depuis janvier 2009, l’archive du Web français en relation avec le secteur de la communication audiovisuelle s'enrichit de collectes qui suivent au plus près les stratégies de rafraîchissement des sites. Une collaboration avec la fondation américaine Internet Archive, pionnière en matière d'archivage du Web, a permis de compléter les collections en remontant jusqu’à 1996.
Quels sites sont conservés ?
L'INA conserve l'ensemble des sites web médias français :
- les sites émanant des services des médias audiovisuels (chaînes publiques et privées), y compris les Services de médias audiovisuels à la demande (SMAD)
- les Web TV et Web radios
- les sites principalement consacrés aux programmes radio et télé (sites consacrés aux émissions de flux, aux séries, sites de fans)
- les sites des organismes de l’environnement professionnel et institutionnel du secteur de la communication audiovisuelle
Les plateformes de vidéos et de podcasts sont-elles archivées ?
Sur les plateformes telles que YouTube et Dailymotion, l’INA collecte et conserve les vidéos publiées par 9 000 comptes et auteurs français. De plus, l’INA assure l’archivage de l’intégralité des podcasts des chaînes de Radio France ainsi que d’une sélection de 5 300 podcasts indépendants ou issus des médias.
Quid des réseaux sociaux ?
L’INA archive les tweets relatifs à l’audiovisuel, à l’actualité des médias et aux grands évènements médiatiques grâce au suivi des publications de près de 15 000 comptes et 2 500 mot-dièses. 15 637 comptes Twitter étaient conservés au 31 décembre. 2020 (soit 1,95 milliards de tweets collectés depuis 2014).
Le dépôt légal du Web, un projet international
L’INA est également membre de l’IIPC (International Internet Preservation Consortium, fondé en 2003) afin de partager les meilleures pratiques de l’archivage du Web et d’encourager une collaboration internationale entre les acteurs opérant dans ce champ, qui reste expérimental. Les membres de l’IIPC comptent des détenteurs d’archives et des bibliothèques nationales, régionales ou universitaires dans 25 pays.