Toutes les pages Web dont le contenu change sans changer d'adresse disparaissent. Voilà un problème pour l'archivage, avant même celui des formats utilisés (ouverts ou pas) et avant celui d'une éventuelle disparition du site.

Un exemple concret récent : certaines pages de Formats-Ouverts.org (FOo) n'étaient plus en ligne après le 1er décembre (suite à la liquidation judiciaire de l'hébergeur, et sans sauvegarde). Ces pages étaient-elles perdues ?

  • non si le cache Google contenait encore la version avant la disparition des articles ;
  • oui si le robot d'indexation avait mis à jour le contenu des pages (incomplet pour octobre et vide pour novembre) ;
  • (heureusement il a été possible d'enregistrer les pages complètes en cache pour octobre et pour novembre de FOo pour récupérer ainsi les articles).

Autre cas possible : la page Web d'un site officiel qui propose l'agenda de son (ses) responsable(s) (ministre, élu, dirigeant,...) :

  • cette page a toujours la même adresse, mais son contenu est changé toute les une ou deux semaines ;
  • les moteurs de recherche indexent la page et la mettent en cache avec la dernière version en ligne à la place de la version précédente ;
  • conclusion : pas d'archive.

Il y a bien des solutions, comme enregistrer les pages Web depuis le navigateur ou au travers d'outils spécialisés comme Scrapbook ou Zotero (deux extensions puissantes pour Firefox [1]) qui permettent de constituer des archives.

Sources et liens :
Et sur Formats-Ouverts.org le 10 décembre :