Pour les formats ouverts !

Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des formats, protocoles et standards ouverts, dans différents domaines (comme l'interopérabilité, l'archivage), depuis le 1er juillet 2004 (plus de 1400 jours) - Les formats se rencontrent presque partout - Il y a actuellement 1540 articles en ligne, dont 4 pour le mois en cours et les notules - Les 1000 articles : le communiqué de presse (inédit et exclusif) - Les statistiques mensuelles du site - Attention : vote électronique - Les conférences - Les 3 ans et demi ! - Le 1500e article - Un index du site - Où en est le patrimoine numérique ?


Notules express :

  • 1er mai : Adobe annonce l'ouverture de certains éléments de sa technologie Flash dans le cadre du projet Open Screen

2008, les 10 ans de XMLXML10, les 10 ans de XML en 2008


Archivage et conservation numériques : 2 débuts d'articles (et d'autres en entier)

Voici les premières lignes

Le journal suisse Le Temps a publié le un article intitulé « Quand les écrits s'envolent » [1], qui commence ainsi :

CONSERVATION. Avec le temps, les supports de l'écriture résistent moins bien. Comment va-t-on lire les fichiers électroniques dans dix ans? Les spécialistes se consultent.

Le journal Courrier international a repris l'article, avec ce titre : « ARCHIVAGE Les écrits aussi peuvent s'envoler » [2] et ce début :

On peut encore lire des textes vieux de 5 000 ans, mais pas le premier e-mail, envoyé il y a trente ans… A l'heure du tout-numérique, la conservation des documents se pose de façon aiguë, explique le quotidien suisse Le Temps.

Impossible d'en lire plus sans abonnement ou achat : le modèle économique en place est payant pour les anciens articles, ce qui est une des approches éditoriales possibles. Mais ces 2 débuts signalent bien 2 problèmes à propos des formats :

  • celui des supports numériques (disques durs, clé USB, CD, DVD, disquettes ou bandes) ;
  • celui des fichiers de données enregistrées sur ces supports : fermés ou ouverts ?
Voici d'autres articles, avec toutes les lignes

Pour ce qui est des anciens articles d'un journal, il faut souligner la décision du New York Times (NYT en format abrégé) en septembre 2007 de changer de modèle en mettant en accès ouvert l'ensemble de ses articles [3]. Pour ce qui est Formats-Ouverts.org, même si la comparaison n'est absolument pas de mise, tous les articles sont en ligne depuis le 1er juillet 2004, et parmi eux, certains traitent de conservation et d'archivage numériques :

Sources et liens :
Et sur Formats-Ouverts.org :

Les CD ne sont pas éternels, annonce la télé

Un reportage au journal télé de 20h

Lundi 3 mars 2008, journal de 20h de France 2 [1] : un reportage intitulé Les CD vierges ne sont pas essentiels (pas éternels est plus exact). Le présentateur, David Pujadas, annonce :

Une information qui va peut être alerter beaucoup d'entre vous... On pensait que les CD vierges étaient éternels, supports idéaux pour enregistrer et sauvegarder les photos de famille, les informations administratives ou médicales... Eh bien il n'en est rien... Le stockage numérique ne résiste pas au temps... La durée de vie de ces supports oscille entre 2 et 10 ans... Enquête Michel Mompontet, Jean-François Monnier

Pendant un peu plus 3 minutes, sur des musiques plutôt de science fiction, les formules tombent : « ça été une très grande surprise », « résultat catastrophique », « CD muet », « le CD-R devait tenir un siècle », « informations réduites en poussière », « la seule manière est de faire des mesures », « photos et textes perdus », « INA menacé »... Finalement, « quelles traces seront laissées aux générations futures ? »

C'est exact (et ce n'est pas vraiment nouveau) : le CD vierge qui est gravé a une durée de vie limitée, il n'est pas gravé comme l'information l'est dans de la pierre. Ce reportage diffusé à une heure de grande écoute a peut-être permis d'alerter et de faire prendre conscience de la fragilité de notre mémoire numérique :

  • en premier, fragilité des supports, dont les appareils de lecture peuvent disparaître...
  • puis fragilité des fichiers, dont les formats peuvent être fermés ou avoir disparu...

Complément important au reportage : les disques durs (internes ou externes) ou les clés USB, actuellement très utilisés, ne sont pas plus éternels ! Il faut gérer le patrimoine numérique comme quelque chose de dynamique et non pas de statique une fois gravé, en utilisant des formats ouverts pour garantir l'archivage.

Voir aussi l'article « Attention, l'humanité perd la mémoire » et ses 13 articles en référence.

Sources et liens :

Les Archives Nationales du Royaune Uni et Microsoft : préservation numérique

Les formats dans les archives numériques : un accord privé-public, et des questions

Ce mercredi 4 juillet 2007, les Archives Nationales du Royaume Uni (The National Archives, TNA, [1]) et Microsoft ont annoncé un « Memorandum of Understanding (M.O.U) » qui « assure la préservation des enregistrements numériques nationaux, passés, présents et futurs ».

La lecture du contenu du communiqué de presse [2] peut soulever questions et remarques à propos des formats et de l'archivage.

Les Archives Nationales du Royaume Uni vont « participer aux futures versions des produits de Microsoft ». Pour les documents aux formats de Microsoft, c'est une bonne chose. Mais pour les autres formats ? Et ces liens forts auront sans doute un poids dans les conseils et les préconisations futures des archives officielles.

Il est indiqué que des « logiciels qui prennent en charge des formats de fichiers anciens ne sont plus disponible à la vente ». C'est exact, pour Microsoft comme pour d'autres éditeurs : de plus, quand le format de ces fichiers anciens est fermé et n'était lisible qu'avec ces logiciels, le piège est là, et il se referme.

Natalie Ceeney, Chief Executive de The National Archives, parle du « travail avec l'industrie des technologies de l'information » mais aussi pour la collaboration avec Microsoft « des outils clés pour accéder aux informations du gouvernement des années à venir. » Mais est-il sûr que les informations du gouvernement seront toutes dans des formats Microsoft ? n'y a-t-il aucune diversité ?

C'est le logiciel Microsoft Virtual PC 2007 [3] qui « permet d'accéder aux anciennes versions de Microsoft Windows et Office ». Il ne s'agit donc pas des ordinateurs et logiciels d'époque mais d'une émulation des logiciels anciens et de leurs formats : remonte-t-il assez loin dans le temps ? et si les informations sur les formats ont été perdues ?

Une des perspectives citée est « d'augmenter l'accessibilité de ces documents en convertissant ces informations dans de nouveaux formats ouverts de fichiers » : donc passer de formats fermés anciens à des formats ouverts actuels d'Office 2007 comme PDF ou ODF ou seulement OpenXML.

Gordon Frazer, Managing Director UK et Vice President Microsoft International déclare que « les formats de fichiers basés sur le XML déverouillent les données des documents » : mais les formats de la catégorie XML ne sont pas obligatoirement des formats ouverts.

Adam Farquhar, Chef de eArchitecture à la British Library (qui a un partenariat de bibliothèque numérique et d'archivage de courriels avec Microsoft) et co-président du comité de standardisation Office OpenXML ECMA, parle d'« accéder demain au informations numériques d'aujourd'hui ». Donc ces informations officielles sont (seront) toutes aux formats Microsoft. Il parle aussi du « défi de préserver l'hétitage de la nation », ce qui est très important à voir le documentaire Sauve qui peut le numérique.

Finalement :

  • comment faire pour les documents Wordperfect ou 123 ou XPress conservés : car la question se pose aussi pour ces formats fermés ;
  • pour des structures moins importantes que les Archives Nationales (comme les petites et moyennes entreprise, les associations, les particuliers), il n'y a pas d'accord avec l'éditeur et les formats fermés emprisonnent les informations ;
  • concernant les anciens fichiers, il n'y a aucune mention du problème des formats fermés ;
  • à propos de l'avenir, il n'est pas envisager ici d'autres formats que ceux de Microsoft (en évitant la situation de la Corée du Sud...), et encore moins d'avoir des formats ouverts pour être indépendant et maître de ses données, ce que des États ont exigé.

Pour l'interopérabilité, la conservation, l'indépendance et le contrôle des données, l'approche consistant à utiliser des standards ouverts reste la plus pertinente, mais aussi celle qui est combattue avec des États qui reculent.

Autres articles sur l'archivage numérique :
Sources et liens :
Et sur Formats-Ouverts.org :

Archiver des courriers électroniques : la British Library et...

Juste 2 lignes

Au départ, il y a juste 2 phrases dans un journal non-informatique, Télérama (dans le n°2995, page 9 - dans ce même numéro se trouve page 19, la publicité Apple-Orange avec des erreurs de format). On lit donc dans la rubrique Vite dit, sous le titre A sauvegarder :

La British Library (à Londres) souhaite établir la première collection au monde d'e-mails (ou courriels). Les Britanniques sont invités à lui transmettre les e-mails qu'ils jugent dignes d'intérêt « sur un plan social et historique ».

Et 3 remarques

Première remarque sur ces 2 phrases : un courrier électronique (ou courriel en format plus concis et officiel) est un document qui a un format ouvert : c'est du texte brut, voire du HTML (ce qui ne devrait pas être le cas théoriquement).

Deuxième remarque : comme tout document numérique, il n'y a aucun caractère unique ni aucune rareté. La copie à l'identique est intrinsèque.

Troisième remarque : l'élaboration d'un faux courriel est hélas tout à fait possible (sans signature certaine).

En d'autres termes, un document numérique ne peut être comparé par exemple à la lettre écrite par Charles-Henri Sanson [1], bourreau (exécuteur des hautes œuvres de Paris), qui a exécuté Louis XVI le 21 janvier 1793 : elle fut vendue aux enchères le 7 juin 2006 chez Christie's et elle était unique. Comme sont uniques vos lettres et autres notes manuscrites.

Et le communiqué de presse dit : British Library et Microsoft

Mais où sont les sources de l'information ? Sans doute sur le site de la British Library. En effet, un communiqué de presse a été publié le 3 mai [2]. Et la première phrase indique :

Pour célébrer le lancement au Royaume-Uni du nouveau Windows Live Hotmail, Microsoft a annoncé une collaboration unique avec la British Library pour créer la première archive de courriers électroniques.

Il s'agit donc d'une action de la British Library et de Microsoft à l'occasion du lancement mondial de Windows Live Hotmail avec communiqué de presse de Microsoft [3] (qui ne cite pas l'initiative et qui propose une capture d'écran avec une photo de 2 pingouins !). La British Library a déjà travaillé avec Microsoft (groupe de travail ECMA pour OpenXML ou bibliothèque numérique par exemple).

Le site de l'opération n'est pas celui de la British Libray, mais Email Britan [4]. Il y est précisé que l'envoi du courriel se fait par tranfert (forward en anglais, et pas de redirection, bounce en anglais [5]). L'opération a duré du 1er au 31 mai 2007, réservée aux résidents du Royaume-Uni, Microsoft se réservant la possibilité de vérifier, comme indiqué dans les « Règles de la Campagne » [6].

Comme le veut le format des communiqués de presse, les 2 derniers paragraphes avant les informations de contact sont 2 citations de 2 responsables de l'opération et celui de la British Library indique que « l'archivage numérique de courriers électroniques n'a jamais été entrepris auparavant à cette échelle ».

Cette opération est une illustration intéressante du sujet de l'archivage numérique : a priori il est aisé (plus que le cas de la capsule Yahoo!, du viaduc de Millau ou que l'informatique immortelle) car les courriels sont « du texte », un format ouvert, utilisable dans n'importe quel logiciel de messagerie électronique. L'interopérabilité est en action (exception faite du cas où le format texte est transformé en code binaire).

Sources et liens :
Et sur Formats-Ouverts.org :

L'Ina a archivé : et le format ?

Archivage des élections présidentielles de 2007

« L’Ina archive sites et blogs relatifs aux élections présidentielles » : tel est le titre du communiqué de presse diffusé par l'Institut national de l'audiovisuel (Ina) le 10 mai 2007 (au format PDF) [1].

L'information a été reprise [2] et elle est importante : en effet, les élections présidentielles de 2007 ont vu l'utilisation pour la première fois de manière importante d'Internet avec les sites Web, les blogs, les commentaires, les listes de diffusion, les documents à télécharger,... Il s'agit donc d'archiver les publications électroniques de cette période.

Les sites Web, les forum et les blogs utilisent le format ouvert HTML, mais aussi de la video, de l'audio ou des documents à télécharger à différents formats, notamment fermés (Quicktime, Flash ou WMV pour la video, MP3 ou WMA pour l'audio, .doc pour les textes).

L'Ina a donc archivé ces éléments dans le cadre de sa politique numérique : mais comment ? Quel est le format utilisé ? Ouvert ou fermé ? (Deux leitmotiv de Formats-Ouverts.org.) Les articles de presse reprennent le communiqué de presse officiel : c'est « le format de stockage DAFF développé par l'INA ». Certes, mais encore... :

  • que signifie DAFF ?
  • où se trouve les informations techniques sur ce format ?
  • l'Ina est-il le seul à l'utiliser ?
  • y a-t-il des métadonnées qui sont rajoutées ?
  • y a-t-il un travail commun avec la Bibliothèque nationale de France (BnF) ?
  • ce format entre-t-il dans le cadre de la formation de conservateur du patrimoine audiovisuel lancée par l'Ina ?
  • quelle est la licence d'utilisation ?
  • et finalement : le format DAFF est-il un format ouvert ou fermé ?

Sur le site officiel ou dans les articles de presse, aucune précision n'était indiquée à propos de cette action à saluer pour la préservation et la conservation de cette période, encore plus si le format utilisé est ouvert.

Sources et liens :
Et sur Formats-Ouverts.org :

Les archives des sites de l'Élysée et du Premier ministre

La mémoire numérique des informations officielles

Mai 2007 : élection d'un nouveau Président de la République et nomination d'un nouveau Premier ministre. Qu'en est-il des archives des sites Web pour les périodes précédentes ? D'autant que pour l'Élysée il est lancé depuis 1995 avec Jacques Chirac, alors que plusieurs Premiers ministres se sont succédés depuis 12 ans.

Pour le site de Matignon, comme cela s'est systématiquement déjà produit, les « Archives du site du Premier ministre » sont en ligne sur le site même [1]. Pour le site de la Présidence de la République, les pages sont en ligne avec la mention « Archives de la Présidence de M. Jacques Chirac 1995 - 2007 » [2]. Ainsi est-il possible de lire la page de la dernière allocution de Jacques Chirac Président, le 15 mai 2007 (un mardi) à 20h [3], avec ses 3 versions : écrite (format texte en HTML), audio (formats MP3 et WMA) et video (formats WMV et Quicktime). Le premier est le seul ouvert, et les pages Web assure l'interopérabilité.

Sources et liens :
Et sur Formats-Ouverts.org :

Voici « l'informatique immortelle »...

Un projet assez futuriste, avec l'éternelle question ELF : Et Les Formats ?

Voici tout d'abord la petite histoire de cette histoire :

  • le 25 janvier, sur le site de 01Informatique, je découvre un article qui traite de l'information [1] ; je la mets immédiatement dans mon fichier de notules et fais quelques recherches :
    • le 22 janvier un long article est paru sur le site du journal Seattle Post Intelligencer, et semble être le point de départ [2] ;
    • le même jour, le site Slashdot reprend l'information avec un lien complémentaire [3] ;
  • le 1er février cela est publié brièvement en notules sur Formats-Ouverts.org et mentionné lors de la conférence de l'après-midi ;
  • le 22 février Jérôme Colombain traite du sujet dans sa chronique sur France Info [4] : je me dis qu'il faut publier ! Voici donc :
« Immortal Computing », tel est son nom

Les brevets sont bavards : c'est de là que l'information est partie. Microsoft a déposé en 2005 par l'intermédiaire d'un de ses chercheurs, Andrew Wilson [5], des brevets concernant « Immortal information storage and access platform », soit « une plateforme de stockage et de consultation immortelles d'informations » [6]. Le brevet a été rendu public début 2007.

Ce projet vise donc à conserver la mémoire numérique que nous constituons (photos, video, textes, sons,...) avec la possibilité de la restituer aux bonnes personnes, c'est-à-dire celles autorisées à les consulter (comme des membres de sa famille, avec authentification biométrique ou ADN), y compris sur la sépulture de l'auteur décédé.

Plus ambitieux encore, l'idée serait d'arriver à se passer le plus possible de support physique et d'avoir aussi des informations « auto-explicatives » pour les consulter malgré l'évolution des technologies.

Ce projet fait penser à The Handle System, avec le principe de digital object identifier (DOI) [7], un projet issu des travaux de Bob Kahn [8], un des pères d'Internet. Plus récemment, début novembre 2006, la société Yahoo! a fait parler de son projet Yahoo! Time Capsule qui sera ouverte en 2020 avec des témoignages de 2006 (cette capusle n'a rien à voir avec celle de café...)

ELF : Et Les Formats ?

La question des formats vient immédiatement à l'esprit (du moins sur Formats-Ouverts.org !) et se pose à 2 niveaux :

  • le format des supports : même si on veut les supprimer au maximum, le point demeure. Papier, parchemin, pierre, verre, bois voire argile : ces supports non-électroniques ont montré au cours de l'histoire qu'ils conservent l'information à très long terme par rapport aux quelques années pour le numérique ;
  • le format des données (ou celui de leurs fichiers) : quel logiciel saura lire les informations ? le format sera-t-il ouvert ? Même avec un système « auto-explicatif », comme celui utilisé pour la sonde Voyager (le « Golden record ») [9] où on explique dans un langage symbolique comment consulter les données enregistrées, cela ne garantit pas la bonne utilisation de ces données.

Que ce soit pour soi, pour un pays comme pour l'humanité, le sujet de la mémoire, du patrimoine et de l'archivage est central, et celui des formats aussi à l'ère du numérique.

(Pour l'instant le site Microsoft Research [10] n'a fait que mentionner dans son fil RSS [11] l'article du Seattle Post Intelligencer. Mais aucune page n'y est consacrée, ni sur le site de Microsoft. En revanche, le projet de Trustworthy Computing (L'informatique de confiance) [12] est lui bien présent... mais sans doute bien plus concret et plus intéressant, même si une convergence des deux serait possible.)

Sources et liens :

(Cet article a été frappé par le syndrome de la référensite avec des liens très (voire trop ?) nombreux... en espérant qu'ils servent.)

Et sur Formats-Ouverts.org :

Rendez-vous en 2020 pour se confronter aux formats

La capsule Yahoo! et les formats

Le 8 novembre 2006 à minuit, Yahoo! met fin à la collecte des témoignages pour son projet de Yahoo! Time Capsule [1] élaboré avec l'artiste Jonathan Harris : il s'agit d'enregistrer via le site Web dédié les témoignages des internautes (texte, image, son) à propos de ce qui constitue leur vie en 2006. [2]

La capsule sera enterrée dans un lieu secret de la Silicon Valley et placée aussi dans les archives du Smithsonian Institution [3]. La capsule sera réouverte en 2020 pour les 25 ans de Yahoo!.

Et Les Formats ? (ceux de 2006 dans 14 ans...)

Voici une excellente illustration du sujet des formats et de l'archivage : cette mémoire numérique sera-t-elle consultable dans 14 ans ?

  • se souviendra-t-on où est enterrée la capsule et où elle elle est rangée dans les archives ? (la NASA n'est pas à imiter...) ;
  • le format des supports utilisés (CD, DVD, disque dur, clé USB,...) sera-t-il en bon état ? serat-til lisible avec les lecteurs et les prises nécessaires ?
  • les formats numériques des textes, images, sons, video seront-ils utilisables avec les logiciels de 2020 ? ces formats sont-ils ouverts ou propres à un logiciel ?
  • si les formats sont liés à un logiciel fermé, quelle garantie pour qu'il existe encore en 2020 ? (à l'inverse des logiciels fermés qui ont disparu, le logiciel libre (et donc ouvert) LaTeX existe depuis plus de 20 ans, mais c'est une exception) ;
  • l'archivage est-il allé jusqu'à conserver aussi la machine de 2006, c'est-à-dire le matériel et les logiciels utilisés ? ce serait une sage précaution...

Aux yeux du non-numérique, 14 ans n'est pas une durée excessive : les photos tirées sur papier, les livres, les disques vinyls ou compact, les lettres, cours et notes papier peuvent avoir plus de quinze ans. Mais dans le monde numérique, les formats sont une épée de Damoclès...

Et pour pour ce qui est du témoignage non-encapsulé de Formats-Ouverts.org, voici : « Les formats sont partout. En 2006, la guerre des formats à lieu dans presque tous les domaines. Standards ouverts et fermés s'affrontent encore plus, avec l'interopérabilité comme sujet à la mode. Qui gagnera et permettra à notre patrimoine numérique d'être conservé ? J'espère les standards ouverts. (Message personnel : les parfums, les goûts et le toucher n'existent pas au format numérique ; et certains souvenirs ne s'oublient pas). »

Rendez-vous à l'ouverture de la capsule en 2020... pour savoir si l'information numérique est pérenne et si Le manuel pratique de l'archivage électronique de Catherine Dhérent aura été un peu suivi.

Sources et liens :
Et sur Formats-Ouverts.org :

« Garantie de l'ouvrage : 120 ans » Et pour les formats ?

Millau, son viaduc et 2 questions sur les formats

Connaissez-vous la sérendipité ? (si vous êtes pressé, vous pouvez passer au 3e paragraphe, mais c'est un peu dommage pour suivre le cheminement...) La sérendipité, ou comment trouver par hasard une information intéressante voire celle recherchée, notamment au gré des liens hypertextes entre les pages Web.

Ainsi, au départ il y a le XIe sommet de la Francophonie. La société RyXéo y était présente. Elle avait un blog, Bucarest 2006 avec une série d'articles. Et parmi ces articles, il y en a un à propos des formats, avec ce passage [1] :

Imaginez que les plans du viaduc de Millau soient dans un format de fichier lisible par un seul logiciel et que ce logiciel vient à disparaître d'ici 10 ans (très probable dans le domaine de l'informatique) comment feront les réparateurs du viaduc lorsqu'il faudra faire appel aux plans initiaux pour concevoir des réparations ?

Cette question est claire et pertinente : comment archiver de tels plans s'ils sont au format numérique ? L'article comporte un lien vers le site du viaduc de Millau [2]. En se rendant sur ce site, on trouve les « Chiffres clés » de la page Les chiffres de tous les records [3]. Et on lit tout en bas de la page les 2 lignes suivantes :

Durée de la concession : 78 ans - 3 ans de construction et 75 ans d'exploitation

Garantie de l'ouvrage : 120 ans

78 ans... 120 ans... ce sont des durées proches de l'éternité aux yeux de l'informatique... Et donc seconde question : dans plus de 70 ans ou dans plus d'un siècle, comment faire pour consulter les plans de cet ouvrage d'art ? quel est le format des plans en question et des informations ?

  • format électronique : comment lire ces données dans autant de temps ? car les matériels et les logiciels vont évoluer... des formats ouverts, certes, mais la gestion des informations sera capitale ;
  • les 2 formats : une version papier (en plusieurs exemplaires) conservée dans des conditions spécifiques et une version numérique, en plusieurs exemplaires aussi ?

Dans cet exemple concret du viaduc de Millau, on ne peut pas se poser la question de savoir s'il est pertinent de conserver les informations techniques : la conservation est obligatoire. Cela renvoie à la problématique de l'archivage électronique et du patrimoine numérique : les 5 questions à se poser sur les formats ne sont pas à oublier.

Sources et liens :
Et sur Formats-Ouverts.org :

Quand le nouveau site Web paraît...

Mais que sont les anciennes pages devenues ?

Annonce sur le site gouvernemental Internet.gouv.fr [1]:

Le site de l’Education nationale fait peau neuve La nouvelle version du site de l’Education nationale est en ligne depuis le 1er septembre 2006. Ergonomie, attractivité : plus qu’une évolution graphique, le site a bénéficié d’une véritable refonte. [2]

Se pose alors la question de la mémoire, du patrimoine et de l'archivage : que sont les anciennes pages devenues ?

Certes, le contenu précédent peut être encore en ligne, mais comme l'indique l'article, il y a une autre présentation graphique. Comment alors consulter l'ancienne version du site, au titre par exemple d'études sur l'histoire et l'évolution des sites Web ? Pour ce qui est des adresses de pages précises (les URL), on suppose qu'il n'y a pas de modification et que la pérennité des références existantes est bien effective.

Certes, le format HTML des pages Web est un format ouvertl'interopérabilité est la plus présente, et l'archivage ne pose pour ce point pas trop de problème. Mais les pages Web ont un format de présentation qui compte aussi : dans le monde du format papier, il y a les différentes éditions des documents qui permettent de se pencher sur leur évolution, à condition qu'elles soient conservées, ce qui est normalement le cas.

Alors pour les sites Web, comment procéder :

  • est-ce sur le site Web en question que les anciennes versions seront disponibles ? L'exemple du site des archives du site du Premier Ministre est à ce titre à signaler [3] : « Le site www.archives.premier-ministre.gouv.fr, permettant l'accès aux versions successives du site du Premier ministre, constitue une véritable base de données de l'activité gouvernementale. » Les versions depuis 1996 sont disponibles.
  • l'ancienne version sera-t-elle sur un site spécial dédié à l'archivage ? Site national, site indépendant ?
  • il n'y a plus rien : les informations ne sont plus disponibles, perdues, comme pour le site des Universités d'été de la communication. Mais faut-il tout conserver (le projet existe) au nom du numérique en apparence plus facile à archiver ? « Un bon archiviste est un bon destructeur » peut-on apprendre...

Cet exemple et les questions qu'il soulève concerne bien sûr tous les sites Web, publics, associatifs, privés voire personnels : c'est la question de la mémoire du Web et du patrimoine produit par les différentes structures.

Sous l'angle des formats, on peut aussi relever 4 points quant à cette nouvelle version du site de l'éducation nationale :

  • point positif : plusieurs flux RSS à un format ouvert XML, « Tous les fichiers R.S.S. doivent être conformes à la spécification X.M.L. 1.0, publiée sur le site Web du World Wide Web Consortium (W.3.C) » [4]
  • point positif : la politique de lien hypertexte, « Le site www.education.gouv.fr autorise, sans autorisation préalable, la mise en place de liens hypertextes pointant vers ses pages », sans lien profond avec imbrication et avec mention de la source [5]
  • point positif : l'annonce d'un effort pour l'accessibilité du site, « Les pages sont mises progressivement en conformité avec les recommandations du référentiel commun des critères d'accessibilité des services Internet de l'administration française pour respecter la loi n°2005-102 du 11 février 2005 pour l'égalité des droits et des chances, la participation et la citoyenneté des personnes handicapées. » [6]
  • pont négatif : le non-respect du format ouvert XHTML : les pages sont déclarées en XHTML 1.0 Strict, mais non valides selon l'outil en ligne Validator du W3C [7]

Le travail réalisé est à souligner et le site saura sans doute encore s'améliorer, souhaitons même avec les archives des versions précédentes.

Sources et liens :
Et sur Formats-Ouverts.org :

Une histoire incroyable : les bandes perdues de la NASA, c'est une affaire de formats

C'est une histoire de formats !

Résumé de l'histoire (vous avez aussi la version très sobre ou factuelle) : La NASA a perdu les bandes originales des premiers pas de l'Homme sur la Lune. Les images enregistrées dessus sont de bien meilleure qualité que ce qui a été rediffusé pour les télés. Et ces bandes ne peuvent être utilisées qu'avec un seul et dernier matériel de lecture existant. Or il doit disparaître car l'unité qui le possède va fermer ses portes en octobre. C'est l'incroyable histoire des bandes perdues de la NASA.

Les formats jouent un rôle important de cette histoire incroyable. Ils sont si présents qu'ils peuvent presque en constituer un chapitre particulier. Donc, après les chapitres I, II et III, voici :

Chapitre IV : illustration du rôle et de l'importance des formats (notamment dans la conservation des données et dans l'archivage électronique)

Point de cours sur l'archivage ci-dessous, mais voici nos amis ou nos ennemis les formats.

Tout d'abord le format des données : dans le cas de la NASA, c'est le format Slow Scan TV (SSTV). C'est un format analogique. Dans le monde du numérique on dirait aussi le format des données, ou le format du fichier. Pour que ce format soit utiliser de la Lune jusqu'aux télévisions dans les foyers, il aurait fallu une chaîne d'appareils sachant tous utiliser le format SSTV. Ce qui n'était pas le cas à l'époque, le format des télés était incompatible avec ce SSTV.

Ensuite le format des données et son inséparable question FOO : Fermé Ou Ouvert ? Si le format est fermé, on ne sait rien dessus, excepté les auteurs dudit format qui sont donc les seuls à le maîtriser : et s'ils disparaissent, s'ils arrêtent... Inversement, si le format est ouvert, la pérennité est plus assurée : les informations techniques dessus sont disponibles.

Enfin le format du support utilisé : la NASA a employé des bandes magnétiques, qui ont des caractétistiques (matière, dimensions, masse,...) et qui sont obligatoirement dépendante d'un appareil de lecture. Cet appareil pour lire peut être différent de celui qui enregistre (comme par exemple pour les disques vinyl). Sans son appareil de lecture, un support n'est rien. Si la laboratoire DEL possédant le dernier lecteur de bandes SSTV ferme...

On peut aussi ajouter le format des câbles et des prises utilisés pour relier, connecter ou alimenter les appareils. Les formats sont presque partout dans le monde technique. Finalement, c'est une série de questions EL qui se pose : ELF, Et Le Format ? ELS-L, Et Le Support-Lecteur ? ELM, Et Les Métadonnées (ou le récolement) ? ELG , Et La Gestion (des archives) ?

Chapitre V : d'autres questions se posent

Comment est-il possible d'égarer de la sorte des bandes aussi importantes de la part d'une organisation comme la NASA ? Et la conservation et la gestion des archives ? « Allô la Direction des Archives de France, Martine de Boisdeffre ? Ce serait pour donner une information sur les services d'archives dans les États et les structures gouvernementales. » [1]

Comment l'informatisation des archives peut-elle sembler aussi peu importante à la NASA ? Et l'utilisation des métadonnées et le records management ? « Allô la Bibliothèque nationale de France, Catherine Dhérent ? Ce serait pour faire une intervention sur la mise en place d'un système de records management. »

Comment ne pas penser aux puces RFID qui seraient si utiles sur ces bandes, véritables « trésors », pour en avoir un meilleur suivi. Mais encore faut-il retrouver les bandes...

Annexe pour être complet

Le point de départ de cette histoire incroyable est le remarquable document de John M. Sarkissian [2] qui travaille à l'observatoire Parkes, en Australie [3]. Cet observatoire fait partie du CSIRO (Commonwealth Scientific and Industrial Research Organisation), l'organisme gouvernemental australien pour la recherche scientifique [4]. L'observatoire de Parkes a aussi été l'un des 3 centres sur Terre à avoir reçu les images émises depuis la Lune le 21 juillet 1969.

Aucun des nombreux articles [5] qui traitent de cette information n'a indiqué ce document. Il n'y a que l'article du Nouvel Observateur qui fait plusieurs citations de John M. Sarkissian. Son document est donc en quelque sorte au format exclusivité sur Formats-Ouverts.org ! (le site Slashdot le mentionnait aussi [6]).

Enfin, il faut indiquer qu'il est possible de revoir des images d'époque, donc en qualité inférieure aux originales tant recherchées :

  • sur le site de la NASA [7] qui propose des pages consacrées à la mission Apollo 11, avec une video du module lunaire qui se pose et une autre du premier pas sur la Lune. Toutes deux sont au format AVI [8] ;
  • avec les commentaires en français d'époque, le site de l'INA [9] propose aussi de revoir les images du premier pas sur la Lune, « au format QuickTime ainsi qu'au format Real et Windows Media'' ». [10]
Sources et liens :
Et sur Formats-Ouverts.org :

Site Web et archive : un cas concret

Un an après : plus rien...

Il y a un an, le 23 août 2005, l'article de Formats-Ouverts.org traitait d'un débat du jeudi 23 août 2001, et aussi du projet MyLifeBits et des 60 ans du Memex. En ce 23 août 2006 il est intéressant de revenir sur cet article pour parler de l'archivage de site Web.

Le débat il y a 5 ans était intitulé « Classer/Détruire : comment émerger des océans de données ? » : il se déroulait lors de la 22e Université d'été de la communication (UEC) de Hourtin [1] et comprenait 3 intervenants (de l'Université de Paris VIII, de Kleio.net et du CNRS) et 1 intervenante, Catherine Dhérent (de la Direction des Archives de France, Ministère de la culture et de la communication).

Et quel est le nom des 3 intervenants ? A priori, il suffit de cliquer sur le lien indiqué dans l'article de 2005, (www.crepac.com/Hourtin-2001/calendrier/evenement.asp?numero=498). Et le programme de cette 22e UEC ? A priori, il suffit de consulter le site (Crepac.com). Et les Universités d'été de la communication de 2002 ou 2003 ? A priori, elles sont sur le site aussi.

Erreur ! On obtient « Site introuvable » car il n'y a plus de site ! Depuis un an, plus aucune page officielle, plus aucun contenu...

L'université d'été de la communication était une manifestation reconnue. Elle a cessé en 2005 : la dernière a donc eu lieu en 2004, c'était la 25e du nom. Un thème particulier était le fil rouge de chaque édition qui constituait un rendez-vous important juste avant la rentrée, avec des exposants, des visiteurs, des ministres, des annonces et des journalistes.

Mais avec la fin de l'UEC, malgré l'importance, fin aussi du site Web. Il ne reste donc presque rien en ligne du site officiel : pas de cache Google, et quelques pages sur le site d'Internet Archive [2]. L'archivage électronique n'est pas encore aussi systématique, et les informations sur le Web sont finalement assez fragiles.

Heureusement, il peut y avoir des pages sauvegardées sur sa machine (à condition aussi de les gérer) et aussi des documents au format papier (programmes, cartes, dépliants, notes,...), lui aussi format ouvert et faisant preuve d'interopérabilité.

Et cet exemple n'est presque rien en comparaison de l'incroyable histoire prochaine...

Sources et liens :
Et sur Formats-Ouverts.org :

Les archives, le numérique et les formats

Les archives à l'ère du numérique

L'archivage et les formats sont deux sujets presque indissociables. Dans le monde numérique toujours plus présent, on les rencontre systématiquement, à propos des formats des supports, des formats ouverts des données ou de la gestion des archives numériques.

L'importance des archives est capitale : elles concernent le patrimoine, la mémoire, l'histoire... Il s'agit donc de conserver des documents numériques (textes, images, sons, video,...) pour lesquels les dangers des formats (plus la bonne version du logiciel utilisé, plus de logiciel de lecture,...) sont bien pris en compte (voire résolus).

Ce sujet de l'archivage électronique est une préocupation à un haut niveau national, notamment au sein de la Direction des Archives de France (DAF) du Ministère de la culture et de la communication :

  • Le futur Centre des Archives nationales de Pierrefitte-sur-Seine aura un volet électronique : parmi les principaux objectifs du projet, il s'agit de « prendre la mesure de l'administration électronique et l'adapter aux impératifs futurs du service public des archives sur le plan de la pérennité, de la sécurité et de l'accès aux données archivées au format électronique » [1];
  • Force est de constater que « L'archivage électronique prend une place prépondérante, à la mesure de la révolution numérique qui est à l’œuvre dans le domaine de la production de l'information par les services de l'État. » [2]
  • Le Ministre de la culture a annoncé le 16 février dernier : « En 2006, sera développé le pilote de la plate-forme d'archivage électronique. Opérationnel en 2007, ce système préfigure le système de grande ampleur dont le centre de Pierrefitte-sur-Seine sera doté pour son ouverture. » [3]

Les standards ouverts sont la meilleure solution pour l'interopérabilité, mais aussi ici pour la pérennité des informations, et donc pour la mémoire et le patrimoine numériques.

Autres articles sur les archives et les formats :
Sources et liens :

Des photos de Verdun

Des photos qui suscitent aussi des questions d'archivage

Le 21 février 1916 débutait la bataille de Verdun. Pour le 90e anniversaire, de nombreuses cérémonies sont organisées jusqu'en octobre (concerts, pièce de théâtre, inaugurations, commémorations officielles).

Le journal La Croix a publié dans son numéro du 21 février 2006 des photos inédites de cette bataille. Des photos au format papier, et non pas au format issu d'un tirage classique. Des photos qui ont aussi été numérisées, indiquait un journaliste du quotidien.

Cette numérisation peut susciter 4 questions-réponses liées à l'archivage :

Ces questions, ici présentées dans un format abrégé, et leurs réponses, sont des indications que l'on peut retrouver plus en détails notamment dans le livre Les archives électroniques, Manuel pratique de Catherine Dhérent.

Pour ce qui est de ces lieux d'hécatombe, le champs de bataille de Verdun a un statut particulier, mais d'autres lieux similaires sont aussi très forts, notamment ceux de l'Artois, comme Vimy ou Lorette, évoqués lors d'un précédent article.

Sources et liens :

Archivage électronique, archivage du Web

Deux ressources sur le sujet de l'archivage numérique

Ère numérique, de la volatilité à l’archivage, tel était le titre de la rencontre du jeudi du 10 novembre matin, organisée par l'ADAE et la Direction des Archives de France (DAF, du Ministère de la Culture). Le site de l'ADAE propose les 5 documents de cette manifestation qui « a présenté l’état des lieux de l’archivage électronique au sein de l’Administration et le programme des actions envisagées », avec :

  • un état des lieux ;
  • le plan d’action de l’administration ;
  • archivage et sécurité ;
  • un témoignage d’une collectivité territoriale ;
  • une plate-forme technique.

Le site BlogOKat est à l'origine de l'information ci-dessus, et il traitait fin janvier du sujet de l'archivage du Web et du dépôt légal des sites. L'article, Archivage et dépôt légal du web, donne une série de références et de liens à propos des aspects techniques, juridiques et méthodologiques.

Pour ces deux sujets importants liés à l'archivage, l'utilisation des standards ouverts est la réponse technique, comme cela a déjà été développé dans l'excellent ouvrage Les archives électroniques, Manuel pratique de Catherine Dhérent.

Sources et liens :

Fin du 600e article de Formats-Ouverts.org.

«Les fichiers numériques sont-ils pérennes ?»

Réponse de la FNAC et de RMC, avec commentaires

Le magazine gratuit Epok de la FNAC traite chaque semaine de nombreux sujets dans différentes catégories. Le thème du numérique au sens large (multimedia, jeux, musique, video,...) est régulièrement développé, notamment dans l'encadré Le laboratoire de la FNAC sur RMC, un questions-réponses entre Victor Jachimovicz, directeur du laboratoire de la Fnac et François Sorel, de RMC. Ils ont déjà évoqué la télévision haute définition (et ses protections).

L'encadré du numéro 9 (du 28 octobre au 3 novembre) est intitulé Les fichiers numériques sont-ils pérennes ? avec comme point de départ un auditeur qui a des fichiers de photos conservés depuis 1993 sur un CD photo Kodak. Extraits :

Dans l'avenir, combien de temps peut-on espérer garder ses souvenirs sur CD ou DVD ? Les photos de cet auditeur devaient pouvoir être lues sur un lecteur photo CD de Kodak qui, malheuseusement, n'est plus en vente. C'est d'ailleurs un problème qui se pose à long terme. Trouvera-t-on encore, dans de nombreuses années, de quoi lire nos produits actuels ? C'est une vraie question, car il y a des supports qui ont complètement disparu.

Le premier problème concerne bien le format des supports physiques. En cas de disparition du lecteur (de disquette 3 ou 5 pouces) ou de la prise utilisée (le port série), les données stockées sont inutilisables. Et en cas de fin de production du support, des appareils peuvent devenir inutiles (comme l'exemple donné à propos des cartes mémoires au format MMC devenus rares et qui équipent des appareils photo numériques).

Concernant la pérennité des supports à l'avenir, les industriels essaient de mettre au point des consommables - des CD ou des DVD vierges - avec une durée de vie plus longue.

Le deuxième problème des données numériques concerne en effet la durée de vie des supports de stockage. Cette durée est limitée, que le CD ou le DVD soit gravé ou pressé. De plus, le maniement et le stockage des supports numériques peuvent causer des altérations et détériorer l'intégrité de ces supports. Et les disques durs sont aussi concernés car ils sont également fragiles et à durée de vie limitée.

La conservation et l'archivage signifient une véritable gestion et un suivi des supports, y compris pour les documents numériques. Les 2 problèmes du format physique et de l'intégrité viennent même avant celui des formats des fichiers, ouverts ou pas, des métadonnées ou du récolement. L'ouvrage Les archives électroniques, Manuel pratique de Catherine Dhérent traite fort bien du sujet, comme les pages de la Direction des Archives de France ou peut-être un peu la prochaine conférence sur l'archivage électronique du 10 novembre.

En conclusion, à la question « Les fichiers numériques sont-ils pérennes ? », la réponse est clairement « non » : il faut en assurer une véritable gestion, en veillant à avoir des formats ouverts, sous peine de perdre définitivement les données, menace évoquée dans le documentaire Sauve qui peut le numérique ! (et le papier est parfois préféré au numérique...).

Sources et liens :

Le format blog face au temps

Le succès des blogs et autres weblogs

Les sites Web de type weblog, souvent simplement dénommés blog, sont à l'honneur :

  • le mot blog entre dans le dictionnaire Larousse 2006 : pourtant la traduction officielle recommandée en français est bloc-notes ou bloc... ;
  • le nombre de tels sites explose, à propos de tous les sujets ;
  • la presse en ligne, des entreprises (comme France Télévision) ou des personnalités politiques mettent en place des blogs ;
  • le grand public a entendu parlé des usages problématiques portés devant la justice à propos de certains blogs de lycéens ;
  • même le droit des marques y a été mêlé : le terme Skyblog ne peut utilisé par la radio Skyrock car il est protégé ;
  • la presse généraliste relate l'ampleur du mouvement (rôles médiatique, politique, social) au travers par exemple en France d'articles dans Le Monde, Libération ou Télérama (la couverture Blogs Déjà 12 millions et moi et moi... et le dossier spécial début juin).

Sans oublier les aspects techniques eux aussi développés dans de très nombreux articles pour choisir entre les différentes possibilités, héberger, installer, créer, enrichir son blog.

De la sauvegarde des blogs

Avec ce succès, quid du blog face au temps ou aux accidents : comment surmonter la perte des données à la suite d'un grave problème de machine sur laquelle se trouve le blog ? comment pouvoir changer d'hébergeur sans trop de difficultés ? comment sauvegarder son blog ?

Il y a bien le cache de Google ou Internet Archive pour l'archivage des pages Web du blog. Mais cela ne répond pas aux questions de sauvegarde des coulisses techniques. Ces coulisses sont constituées du logiciel de blog, et des données (textes, images ou sons).

Par exemple, pour Formats-Ouverts.org qui est un site Web de type blog, Dotclear est le logiciel libre utilisé, avec plus de 400 articles dans une base de données MySQL. Mais ces articles ne sont pas des pages Web transférées en tant que telles sur la machine hébergeant le blog. Les données sont saisies sur la machine du blog via le logiciel qui les manipule pour l'écriture comme pour l'affichage.

Le nœud du problème pour sauvegarder un blog est donc :

  • de disposer des données utilisées par le logiciel de blog ;
  • et que ces données soient à un format ouvert.

S'il s'agit d'une base de données, il faut disposer de sa sauvegarde afin de pouvoir la réutiliser dans le même logiciel ou un autre. Sinon, pas de pérennité et pas d'indépendance par rapport à un outil propriétaire ou par rapport à l'hébergeur. La question simple est donc : possédez-vous une sauvegarde de la base de données de votre blog à un format ouvert ?

(Pour Formats-Ouverts.org, la réponse est oui : un fichier compressé de la base de données MySQL m'est automatiquement envoyé par courrier électronique chaque jour à 6h25, fonctionnalité mise en place par l'administrateur, Sylvain Lhullier.)

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

Le format de disponibilité des archives en ligne

« Cet article en ligne n'est consultable que sur abonnement »

A la fin des articles de Formats-Ouverts.org se trouvent presque toujours la partie Sources et liens qui donne les références directes ou complémentaires utilisées. Cela peut parfois constituer une bibliographie assez importante (par exemple la lettre ouverte à propos de la bibliothèque numérique européenne donne quatorze liens).

Le format rédactionnel des articles de Formats-Ouverts.org donne donc au minimum la source utilisée avec toujours le même format bibliographique : nature (livre, article, dossier,...), titre, auteur, date, langue et adresse Web. Mais parfois certains documents en ligne peuvent ne plus être consultables :

  • car ils ont été retirés du site ou le site a disparu ;
  • car certains sites en ligne ne laissent le libre accès à leurs articles que pendant une durée déterminée, au-delà de laquelle la consultation est payante.

On rencontre ce dernier cas par exemple pour les journaux Le Monde ou Libération (dont certains articles ont pu servir de point de départ désormais inaccessible à un article de Formats-Ouverts.org). Récemment le journal Le Parisien a même décidé de ne permettre la consultation des articles de sa version Web uniquement contre paiement dès leur mise en ligne. A contrario, des sites comme ZDNet France ou Le Monde Informatique proposent leurs articles en ligne sans limite de temps (et c'est aussi le cas plus modestement depuis plus d'un an pour Formats-Ouverts.org).

Chaque approche correspond à un modèle propre : d'un côté disposition permanente, de l'autre archive payante liée à la réputation du titre. Il ne s'agit pas de juger de la valeur de chaque, mais de souligner que la disponibilité des archives des documents en ligne sur le Web est variable. Avant même les formats ouverts des documents, le format de disponibilité de l'information en ligne est à considérer.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

«Quelle confiance accorder à un disque dur»

Gare aux supports

Quelle confiance accorder à un disque dur d'ordinateur dont la durée de vie n'excède pas quelques années et dont la fiabilité est aléatoire ? Quant aux archives photographiques personelles gravées sur CD Rom, c'est un pari hasardeux. Car la plupart d'entre eux ne sont plus lisibles après quelques années en raison de la dégradation du support, mais également de l'inadaptation des nouveaux lecteurs. C'est en fait l'immense problème des archives numériques qui se trouve posé au consommateur de base. (gras ajouté)

Ainsi est pointé le problème du stockage des photos numériques, dans l'article Photo numérique : on n'a encore rien vu de Frank Niedercorn, en première page du cahier innovation des Echos du 9 mars.

Mais ce problème du support s'applique à l'ensemble des fichiers : audio, video, image, bureautique ou autres, toutes les données numériques dépendent en premier lieu de leurs supports. Les formats ouverts sont capitaux pour les archives... mais sur un support abimé (mal stocké, trop fragile) ou sur un support sans lecteur (car ayant disparu), les données sont perdues.

La conservation électronique des documents est un sujet essentiel qui implique entre autres une véritable gestion des supports de stockage. Un documentaire avait déjà souligné le problème, et l'INA le vit.

Sources et liens :
  • Article Photo numérique : on n'a encore rien vu, de Frank Niedercorn, journal Les Echos, page 25, cahier Les Echos innovation, mercredi 9 mars 2005, accès payant, http://www.lesechos.fr/jou