Formateur Perl Formation Perl
L'Association Francophone des Utilisateurs de logiciels libres (AFUL)

Pour les formats ouverts !


Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des standards ouverts (formats, protocoles) dans différents domaines (comme l'interopérabilité, l'archivage et presque partout), depuis le 1er juillet 2004 (soit plus de 1900 jours) - Il y a actuellement 2164 articles en ligne, dont 20 pour décembre - Les 5 ans du site et l'article n°2100.


En direct depuis Identi.ca, les 12 derniers sites pdlsa relevés par tsfoo (au 15/01/2010) : Sage, Saint Algue, Comité de la Charte, MaContraception.Fr, BienVivreMaTension.Fr, Biogaran, l'UNICEF, Atelier.fr (Veille Web de BNP Paribas), Coca-Cola-Entreprise.Fr (comme Coca-Cola France), Tetra Pak, PSA, RenaultShop.Fr (voir une liste qui en reprend et plus complète).


Entre Noël et Nouvel An début 2009, parution des articles (en retard, mais préparés) de novembre et décembre. Une sorte de mise à jour cadeau de fin et début d'année.


Ne me suivez pas sur Twitter, ni sur Facebook : je n'y suis pas. En revanche, il y a le compte tsfoo sur Identi.ca


Fête du patrimoine 2009

Un des sujets traités depuis les débuts de Formats-Ouverts.org (soit depuis plus de 5 ans) concerne les archives et l'archivage numérique. Dit autrement : le patrimoine numérique et les formats, ouverts ou pas.

Pour l'édition 2009 des Journées européennes du patrimoine, voici donc quelques articles déjà publiés sur le sujet issus du (modeste) patrimoine de Formats-Ouverts.org :

Et sur Formats-Ouverts.org le 19 septembre :

Et les archives ? Deux listes

Voici un article en 2 parties : une liste assez longue liste et variée d'âges et de dates... une liste moins longue de questions...

Une liste d'âges et de dates pour 2009
  • les 120 ans de la maison Paul ;
  • les 90 ans de Danone en avril ;
  • les 60 ans du journal Pilote ;
  • les 60 ans de Paris Match en mars ;
  • les 40 ans du magazine Parents ;
  • les 30 ans du mensuel Géo en mars ;
  • le n°20000 du journal Le Monde le 14 mai ;
  • le n°20000 de L'Équipe le 10 avril ;
  • le n°20000 du quotidien Le Parisien (fin décembre 2008) ;
  • le n°1000 de l'hebdomadaire Télé câble sat (semaine du 4 au 10 juillet) ;
  • la centième édition du Guide Michelin ;
  • la nouvelle formule de VSD en avril.
Une liste de questions

Qu'en est-il des archives de ces structures, qui ont un patrimoine important sous la forme de leurs anciens numéros ou des documents qu'ils ont créés (publicités, rapports,...) : celles au format papier ? celles au format numérique ? Pour ces dernières : les supports de stockage (disquettes, bandes, CD, DVD, disques durs,...) sont-ils encore utilisables et lisibles grâce à un lecteur adéquat ? le récolement a-t-il été fait ? les fichiers sont-ils encore ouvrables avec les logiciels qui comprennent le format utilisé ? Bref, la question des formats physiques et numériques (ouverts ou pas) dans l'archivage.

Et sur Formats-Ouverts.org le 25 juin :

Le 9 décembre 1958

Depuis 50,50 ans, des débats et des formats

50 ans et demi en arrière, le 9 décembre 1958, s'ouvrait la première législature de la Ve République suite à la promulgation de la Constitution du 4 octobre 1958. Pour marquer le cinquantenaire de cette constitution, l'Assemblée nationale a organisé le 7 octobre 2008 une journée spéciale : discours, expositions, timbre-poste, fresque... [1]

Et pour les formats ? Il y a tous les débats !

En effet, l'intégralité des débats depuis un demi siècle est disponible en ligne dans les formats ouverts PDF et HTML. Lire par exemple les déclarations des députés 10, 25 ou 50 ans en arrière est très intéressant... Un site spécial pour ces archives a donc été mis en ligne : archives.assemblee-nationale.fr [2], une adresse au format clair et logique.

Voilà un bel exemple à mettre en avant : quand l'utilisation de formats ouverts permet l'archivage au service de la mémoire et de la démocratie.

Sources et liens :
Et sur Formats-Ouverts.org le 9 juin :

La mémoire (France Inter)

2 émissions en début de matinée sur France Inter

Le sept neuf, tranche de 7h à 9h les week-ends sur France Inter, du samedi 16 mai et du dimanche 17 mai 2009 portait sur La mémoire [1].

Pendant les 2 heures, l'émission a proposé chaque jour des entretiens et interventions, animés par le journaliste Stéphane Paoli. Les invités présents étaient :

  • François Ede, restaurateur des films de Jacques Tati et de Pierre Etaix (le samedi) ;
  • Emmanuel Hoog, président-directeur général de l'Institut National de l'Audiovisuel (INA) (le samedi) ;
  • Sylvie Rousset, Directrice de recherches au CNRS, Université Paris-Diderot 7 (le dimanche) ;
  • Professeur Yves Agid, neurologue, chercheur en biologie, spécialiste des neurosciences (le dimanche).

Ce sujet de la mémoire concerne la conservation, l'archivage, la mémoire, le patrimoine, la numérisation et aussi... les formats (bien sûr !), avec l'importance de ceux qui sont ouverts.

Sources et liens :
Et sur Formats-Ouverts.org le mai 21 :

Toutes les affiches s'affichent

Les archives des affiches depuis 1984

Septembre fut comme chaque année le mois des Journées du patrimoine [1], lors du troisième week-end du mois. Pour l'édition 2008, le cas des accents qui ne se suivent pas a déjà été évoqué.

Mais en 2008, il faut aussi signaler une mise en avant du patrimoine... des Journées du patrimoine : en effet le site propose les affiches de toutes les éditions depuis 1984 [2]. On retrouve donc les 25 affiches, avec le titre exact de la manifestation, leur date, leur illustration.

Ce bel exemple d'archives en ligne est à suivre, avec si possible une adresse qui reste permanente, avec les affiches des prochaines éditions, et aussi avec les affiches dans un autre format que le seul visuel affiché dans la page Web, comme un PDF en A4 (deux formats ouverts).

Sources et liens :
Et sur Formats-Ouverts.org à la même date :

La Tribune, La revue des deux mondes et les archives

Des archives au format numérique pour 2 journaux

La Tribune [1] et La revue des deux mondes [2] ont toutes deux mis en ligne leurs archives en 2008 : en avril pour le quotidien économique et en juin pour la plus ancienne revue en Europe qui propose la recherche dans ses articles depuis le numéro du 7 avril 1829. Ces archives sont consultables gratuitement et sans inscription.

Les archives s'installent de plus en plus sur le Web, en complément du format papier, comme déjà pour The New York Times en septembre 2007 et The Times en juin 2008.

Quand elles sont en format texte (ou HTML), ces archives au format numérique utilisent des formats ouverts qui garantissent l'interopérabilité et l'accès à ces informations.

Sources et liens :
Et sur Formats-Ouverts.org :
  • le samedi 30 juin 2007 : 1 article (Pas d'appareils Blackberry dans les cabinets : l'arbre qui cache la forêt ?)
  • le vendredi 30 juin 2006 : 1 article (Le format ODF et l'administration : 3 conférences aux RMLL 2006)
  • le jeudi 30 juin 2005 : 1 article (La double guerre des formats dans la guerre des consoles : Xbox 360 avec HD-DVD contre PS3 avec Blu-ray)

The Times ouvre ses archives

200 ans de presse en ligne

Le 17 septembre 2007, The New York Times annonçait que ses archives étaient accessibles gratuitement pour la période de 1987 à nos jours, pour celle de 1851 à 1922 (la période 1923 à 1986 est en partie payante) [1].

Le 26 juin 2008, The Times a annoncé que toutes ses archives du 1er janvier 1785 au 31 décembre 1985 sont disponibles, soit deux siècles d'articles. L'enregistrement est nécessaire, la décision n'est pas définitive [2].

Et Les Formats (ELF) ? Réponse de The Times [3] : l'article est proposé en tant qu'image de la page où il était originellement imprimé, avec une version au format texte proposé après le travail automatique (pas de relecture pour corriger) d'un OCR.

Donc les formats image et texte brut (2 formats ouverts) comme formats numériques, face au format papier d'origine.

Sources et liens :
Et sur Formats-Ouverts.org :
  • le mercredi 27 juin 2007 : 1 article (La reprise de l'existant et CIPISI)
  • le mardi 27 juin 2006 : 1 article (Nouvelle liste de conférenciers du thème « Standards Ouverts - Interopérabilité »)
  • le lundi 27 juin 2005 : 1 article (Textes importants (mais au format crypté) pour des formats fermés)

Archivage et conservation numériques : 2 débuts d'articles (et d'autres en entier)

Voici les premières lignes

Le journal suisse Le Temps a publié le un article intitulé « Quand les écrits s'envolent » [1], qui commence ainsi :

CONSERVATION. Avec le temps, les supports de l'écriture résistent moins bien. Comment va-t-on lire les fichiers électroniques dans dix ans? Les spécialistes se consultent.

Le journal Courrier international a repris l'article, avec ce titre : « ARCHIVAGE Les écrits aussi peuvent s'envoler » [2] et ce début :

On peut encore lire des textes vieux de 5 000 ans, mais pas le premier e-mail, envoyé il y a trente ans… A l'heure du tout-numérique, la conservation des documents se pose de façon aiguë, explique le quotidien suisse Le Temps.

Impossible d'en lire plus sans abonnement ou achat : le modèle économique en place est payant pour les anciens articles, ce qui est une des approches éditoriales possibles. Mais ces 2 débuts signalent bien 2 problèmes à propos des formats :

  • celui des supports numériques (disques durs, clé USB, CD, DVD, disquettes ou bandes) ;
  • celui des fichiers de données enregistrées sur ces supports : fermés ou ouverts ?
Voici d'autres articles, avec toutes les lignes

Pour ce qui est des anciens articles d'un journal, il faut souligner la décision du New York Times (NYT en format abrégé) en septembre 2007 de changer de modèle en mettant en accès ouvert l'ensemble de ses articles [3]. Pour ce qui est Formats-Ouverts.org, même si la comparaison n'est absolument pas de mise, tous les articles sont en ligne depuis le 1er juillet 2004, et parmi eux, certains traitent de conservation et d'archivage numériques :

Sources et liens :
Et sur Formats-Ouverts.org :

Les CD ne sont pas éternels, annonce la télé

Un reportage au journal télé de 20h

Lundi 3 mars 2008, journal de 20h de France 2 [1] : un reportage intitulé Les CD vierges ne sont pas essentiels (pas éternels est plus exact). Le présentateur, David Pujadas, annonce :

Une information qui va peut être alerter beaucoup d'entre vous... On pensait que les CD vierges étaient éternels, supports idéaux pour enregistrer et sauvegarder les photos de famille, les informations administratives ou médicales... Eh bien il n'en est rien... Le stockage numérique ne résiste pas au temps... La durée de vie de ces supports oscille entre 2 et 10 ans... Enquête Michel Mompontet, Jean-François Monnier

Pendant un peu plus 3 minutes, sur des musiques plutôt de science fiction, les formules tombent : « ça été une très grande surprise », « résultat catastrophique », « CD muet », « le CD-R devait tenir un siècle », « informations réduites en poussière », « la seule manière est de faire des mesures », « photos et textes perdus », « INA menacé »... Finalement, « quelles traces seront laissées aux générations futures ? »

C'est exact (et ce n'est pas vraiment nouveau) : le CD vierge qui est gravé a une durée de vie limitée, il n'est pas gravé comme l'information l'est dans de la pierre. Ce reportage diffusé à une heure de grande écoute a peut-être permis d'alerter et de faire prendre conscience de la fragilité de notre mémoire numérique :

  • en premier, fragilité des supports, dont les appareils de lecture peuvent disparaître...
  • puis fragilité des fichiers, dont les formats peuvent être fermés ou avoir disparu...

Complément important au reportage : les disques durs (internes ou externes) ou les clés USB, actuellement très utilisés, ne sont pas plus éternels ! Il faut gérer le patrimoine numérique comme quelque chose de dynamique et non pas de statique une fois gravé, en utilisant des formats ouverts pour garantir l'archivage.

Voir aussi l'article « Attention, l'humanité perd la mémoire » et ses 13 articles en référence.

Sources et liens :

Les Archives Nationales du Royaune Uni et Microsoft : préservation numérique

Les formats dans les archives numériques : un accord privé-public, et des questions

Ce mercredi 4 juillet 2007, les Archives Nationales du Royaume Uni (The National Archives, TNA, [1]) et Microsoft ont annoncé un « Memorandum of Understanding (M.O.U) » qui « assure la préservation des enregistrements numériques nationaux, passés, présents et futurs ».

La lecture du contenu du communiqué de presse [2] peut soulever questions et remarques à propos des formats et de l'archivage.

Les Archives Nationales du Royaume Uni vont « participer aux futures versions des produits de Microsoft ». Pour les documents aux formats de Microsoft, c'est une bonne chose. Mais pour les autres formats ? Et ces liens forts auront sans doute un poids dans les conseils et les préconisations futures des archives officielles.

Il est indiqué que des « logiciels qui prennent en charge des formats de fichiers anciens ne sont plus disponible à la vente ». C'est exact, pour Microsoft comme pour d'autres éditeurs : de plus, quand le format de ces fichiers anciens est fermé et n'était lisible qu'avec ces logiciels, le piège est là, et il se referme.

Natalie Ceeney, Chief Executive de The National Archives, parle du « travail avec l'industrie des technologies de l'information » mais aussi pour la collaboration avec Microsoft « des outils clés pour accéder aux informations du gouvernement des années à venir. » Mais est-il sûr que les informations du gouvernement seront toutes dans des formats Microsoft ? n'y a-t-il aucune diversité ?

C'est le logiciel Microsoft Virtual PC 2007 [3] qui « permet d'accéder aux anciennes versions de Microsoft Windows et Office ». Il ne s'agit donc pas des ordinateurs et logiciels d'époque mais d'une émulation des logiciels anciens et de leurs formats : remonte-t-il assez loin dans le temps ? et si les informations sur les formats ont été perdues ?

Une des perspectives citée est « d'augmenter l'accessibilité de ces documents en convertissant ces informations dans de nouveaux formats ouverts de fichiers » : donc passer de formats fermés anciens à des formats ouverts actuels d'Office 2007 comme PDF ou ODF ou seulement OpenXML.

Gordon Frazer, Managing Director UK et Vice President Microsoft International déclare que « les formats de fichiers basés sur le XML déverouillent les données des documents » : mais les formats de la catégorie XML ne sont pas obligatoirement des formats ouverts.

Adam Farquhar, Chef de eArchitecture à la British Library (qui a un partenariat de bibliothèque numérique et d'archivage de courriels avec Microsoft) et co-président du comité de standardisation Office OpenXML ECMA, parle d'« accéder demain au informations numériques d'aujourd'hui ». Donc ces informations officielles sont (seront) toutes aux formats Microsoft. Il parle aussi du « défi de préserver l'hétitage de la nation », ce qui est très important à voir le documentaire Sauve qui peut le numérique.

Finalement :

  • comment faire pour les documents Wordperfect ou 123 ou XPress conservés : car la question se pose aussi pour ces formats fermés ;
  • pour des structures moins importantes que les Archives Nationales (comme les petites et moyennes entreprise, les associations, les particuliers), il n'y a pas d'accord avec l'éditeur et les formats fermés emprisonnent les informations ;
  • concernant les anciens fichiers, il n'y a aucune mention du problème des formats fermés ;
  • à propos de l'avenir, il n'est pas envisager ici d'autres formats que ceux de Microsoft (en évitant la situation de la Corée du Sud...), et encore moins d'avoir des formats ouverts pour être indépendant et maître de ses données, ce que des États ont exigé.

Pour l'interopérabilité, la conservation, l'indépendance et le contrôle des données, l'approche consistant à utiliser des standards ouverts reste la plus pertinente, mais aussi celle qui est combattue avec des États qui reculent.

Autres articles sur l'archivage numérique :
Sources et liens :
Et sur Formats-Ouverts.org :

Archiver des courriers électroniques : la British Library et...

Juste 2 lignes

Au départ, il y a juste 2 phrases dans un journal non-informatique, Télérama (dans le n°2995, page 9 - dans ce même numéro se trouve page 19, la publicité Apple-Orange avec des erreurs de format). On lit donc dans la rubrique Vite dit, sous le titre A sauvegarder :

La British Library (à Londres) souhaite établir la première collection au monde d'e-mails (ou courriels). Les Britanniques sont invités à lui transmettre les e-mails qu'ils jugent dignes d'intérêt « sur un plan social et historique ».

Et 3 remarques

Première remarque sur ces 2 phrases : un courrier électronique (ou courriel en format plus concis et officiel) est un document qui a un format ouvert : c'est du texte brut, voire du HTML (ce qui ne devrait pas être le cas théoriquement).

Deuxième remarque : comme tout document numérique, il n'y a aucun caractère unique ni aucune rareté. La copie à l'identique est intrinsèque.

Troisième remarque : l'élaboration d'un faux courriel est hélas tout à fait possible (sans signature certaine).

En d'autres termes, un document numérique ne peut être comparé par exemple à la lettre écrite par Charles-Henri Sanson [1], bourreau (exécuteur des hautes œuvres de Paris), qui a exécuté Louis XVI le 21 janvier 1793 : elle fut vendue aux enchères le 7 juin 2006 chez Christie's et elle était unique. Comme sont uniques vos lettres et autres notes manuscrites.

Et le communiqué de presse dit : British Library et Microsoft

Mais où sont les sources de l'information ? Sans doute sur le site de la British Library. En effet, un communiqué de presse a été publié le 3 mai [2]. Et la première phrase indique :

Pour célébrer le lancement au Royaume-Uni du nouveau Windows Live Hotmail, Microsoft a annoncé une collaboration unique avec la British Library pour créer la première archive de courriers électroniques.

Il s'agit donc d'une action de la British Library et de Microsoft à l'occasion du lancement mondial de Windows Live Hotmail avec communiqué de presse de Microsoft [3] (qui ne cite pas l'initiative et qui propose une capture d'écran avec une photo de 2 pingouins !). La British Library a déjà travaillé avec Microsoft (groupe de travail ECMA pour OpenXML ou bibliothèque numérique par exemple).

Le site de l'opération n'est pas celui de la British Libray, mais Email Britan [4]. Il y est précisé que l'envoi du courriel se fait par tranfert (forward en anglais, et pas de redirection, bounce en anglais [5]). L'opération a duré du 1er au 31 mai 2007, réservée aux résidents du Royaume-Uni, Microsoft se réservant la possibilité de vérifier, comme indiqué dans les « Règles de la Campagne » [6].

Comme le veut le format des communiqués de presse, les 2 derniers paragraphes avant les informations de contact sont 2 citations de 2 responsables de l'opération et celui de la British Library indique que « l'archivage numérique de courriers électroniques n'a jamais été entrepris auparavant à cette échelle ».

Cette opération est une illustration intéressante du sujet de l'archivage numérique : a priori il est aisé (plus que le cas de la capsule Yahoo!, du viaduc de Millau ou que l'informatique immortelle) car les courriels sont « du texte », un format ouvert, utilisable dans n'importe quel logiciel de messagerie électronique. L'interopérabilité est en action (exception faite du cas où le format texte est transformé en code binaire).

Sources et liens :
Et sur Formats-Ouverts.org :

L'Ina a archivé : et le format ?

Archivage des élections présidentielles de 2007

« L’Ina archive sites et blogs relatifs aux élections présidentielles » : tel est le titre du communiqué de presse diffusé par l'Institut national de l'audiovisuel (Ina) le 10 mai 2007 (au format PDF) [1].

L'information a été reprise [2] et elle est importante : en effet, les élections présidentielles de 2007 ont vu l'utilisation pour la première fois de manière importante d'Internet avec les sites Web, les blogs, les commentaires, les listes de diffusion, les documents à télécharger,... Il s'agit donc d'archiver les publications électroniques de cette période.

Les sites Web, les forum et les blogs utilisent le format ouvert HTML, mais aussi de la video, de l'audio ou des documents à télécharger à différents formats, notamment fermés (Quicktime, Flash ou WMV pour la video, MP3 ou WMA pour l'audio, .doc pour les textes).

L'Ina a donc archivé ces éléments dans le cadre de sa politique numérique : mais comment ? Quel est le format utilisé ? Ouvert ou fermé ? (Deux leitmotiv de Formats-Ouverts.org.) Les articles de presse reprennent le communiqué de presse officiel : c'est « le format de stockage DAFF développé par l'INA ». Certes, mais encore... :

  • que signifie DAFF ?
  • où se trouve les informations techniques sur ce format ?
  • l'Ina est-il le seul à l'utiliser ?
  • y a-t-il des métadonnées qui sont rajoutées ?
  • y a-t-il un travail commun avec la Bibliothèque nationale de France (BnF) ?
  • ce format entre-t-il dans le cadre de la formation de conservateur du patrimoine audiovisuel lancée par l'Ina ?
  • quelle est la licence d'utilisation ?
  • et finalement : le format DAFF est-il un format ouvert ou fermé ?

Sur le site officiel ou dans les articles de presse, aucune précision n'était indiquée à propos de cette action à saluer pour la préservation et la conservation de cette période, encore plus si le format utilisé est ouvert.

Sources et liens :
Et sur Formats-Ouverts.org :

Les archives des sites de l'Élysée et du Premier ministre

La mémoire numérique des informations officielles

Mai 2007 : élection d'un nouveau Président de la République et nomination d'un nouveau Premier ministre. Qu'en est-il des archives des sites Web pour les périodes précédentes ? D'autant que pour l'Élysée il est lancé depuis 1995 avec Jacques Chirac, alors que plusieurs Premiers ministres se sont succédés depuis 12 ans.

Pour le site de Matignon, comme cela s'est systématiquement déjà produit, les « Archives du site du Premier ministre » sont en ligne sur le site même [1]. Pour le site de la Présidence de la République, les pages sont en ligne avec la mention « Archives de la Présidence de M. Jacques Chirac 1995 - 2007 » [2]. Ainsi est-il possible de lire la page de la dernière allocution de Jacques Chirac Président, le 15 mai 2007 (un mardi) à 20h [3], avec ses 3 versions : écrite (format texte en HTML), audio (formats MP3 et WMA) et video (formats WMV et Quicktime). Le premier est le seul ouvert, et les pages Web assure l'interopérabilité.

Sources et liens :
Et sur Formats-Ouverts.org :

Voici « l'informatique immortelle »...

Un projet assez futuriste, avec l'éternelle question ELF : Et Les Formats ?

Voici tout d'abord la petite histoire de cette histoire :

  • le 25 janvier, sur le site de 01Informatique, je découvre un article qui traite de l'information [1] ; je la mets immédiatement dans mon fichier de notules et fais quelques recherches :
    • le 22 janvier un long article est paru sur le site du journal Seattle Post Intelligencer, et semble être le point de départ [2] ;
    • le même jour, le site Slashdot reprend l'information avec un lien complémentaire [3] ;
  • le 1er février cela est publié brièvement en notules sur Formats-Ouverts.org et mentionné lors de la conférence de l'après-midi ;
  • le 22 février Jérôme Colombain traite du sujet dans sa chronique sur France Info [4] : je me dis qu'il faut publier ! Voici donc :
« Immortal Computing », tel est son nom

Les brevets sont bavards : c'est de là que l'information est partie. Microsoft a déposé en 2005 par l'intermédiaire d'un de ses chercheurs, Andrew Wilson [5], des brevets concernant « Immortal information storage and access platform », soit « une plateforme de stockage et de consultation immortelles d'informations » [6]. Le brevet a été rendu public début 2007.

Ce projet vise donc à conserver la mémoire numérique que nous constituons (photos, video, textes, sons,...) avec la possibilité de la restituer aux bonnes personnes, c'est-à-dire celles autorisées à les consulter (comme des membres de sa famille, avec authentification biométrique ou ADN), y compris sur la sépulture de l'auteur décédé.

Plus ambitieux encore, l'idée serait d'arriver à se passer le plus possible de support physique et d'avoir aussi des informations « auto-explicatives » pour les consulter malgré l'évolution des technologies.

Ce projet fait penser à The Handle System, avec le principe de digital object identifier (DOI) [7], un projet issu des travaux de Bob Kahn [8], un des pères d'Internet. Plus récemment, début novembre 2006, la société Yahoo! a fait parler de son projet Yahoo! Time Capsule qui sera ouverte en 2020 avec des témoignages de 2006 (cette capusle n'a rien à voir avec celle de café...)

ELF : Et Les Formats ?

La question des formats vient immédiatement à l'esprit (du moins sur Formats-Ouverts.org !) et se pose à 2 niveaux :

  • le format des supports : même si on veut les supprimer au maximum, le point demeure. Papier, parchemin, pierre, verre, bois voire argile : ces supports non-électroniques ont montré au cours de l'histoire qu'ils conservent l'information à très long terme par rapport aux quelques années pour le numérique ;
  • le format des données (ou celui de leurs fichiers) : quel logiciel saura lire les informations ? le format sera-t-il ouvert ? Même avec un système « auto-explicatif », comme celui utilisé pour la sonde Voyager (le « Golden record ») [9] où on explique dans un langage symbolique comment consulter les données enregistrées, cela ne garantit pas la bonne utilisation de ces données.

Que ce soit pour soi, pour un pays comme pour l'humanité, le sujet de la mémoire, du patrimoine et de l'archivage est central, et celui des formats aussi à l'ère du numérique.

(Pour l'instant le site Microsoft Research [10] n'a fait que mentionner dans son fil RSS [11] l'article du Seattle Post Intelligencer. Mais aucune page n'y est consacrée, ni sur le site de Microsoft. En revanche, le projet de Trustworthy Computing (L'informatique de confiance) [12] est lui bien présent... mais sans doute bien plus concret et plus intéressant, même si une convergence des deux serait possible.)

Sources et liens :

(Cet article a été frappé par le syndrome de la référensite avec des liens très (voire trop ?) nombreux... en espérant qu'ils servent.)

Et sur Formats-Ouverts.org :

Rendez-vous en 2020 pour se confronter aux formats

La capsule Yahoo! et les formats

Le 8 novembre 2006 à minuit, Yahoo! met fin à la collecte des témoignages pour son projet de Yahoo! Time Capsule [1] élaboré avec l'artiste Jonathan Harris : il s'agit d'enregistrer via le site Web dédié les témoignages des internautes (texte, image, son) à propos de ce qui constitue leur vie en 2006. [2]

La capsule sera enterrée dans un lieu secret de la Silicon Valley et placée aussi dans les archives du Smithsonian Institution [3]. La capsule sera réouverte en 2020 pour les 25 ans de Yahoo!.

Et Les Formats ? (ceux de 2006 dans 14 ans...)

Voici une excellente illustration du sujet des formats et de l'archivage : cette mémoire numérique sera-t-elle consultable dans 14 ans ?

  • se souviendra-t-on où est enterrée la capsule et où elle elle est rangée dans les archives ? (la NASA n'est pas à imiter...) ;
  • le format des supports utilisés (CD, DVD, disque dur, clé USB,...) sera-t-il en bon état ? serat-til lisible avec les lecteurs et les prises nécessaires ?
  • les formats numériques des textes, images, sons, video seront-ils utilisables avec les logiciels de 2020 ? ces formats sont-ils ouverts ou propres à un logiciel ?
  • si les formats sont liés à un logiciel fermé, quelle garantie pour qu'il existe encore en 2020 ? (à l'inverse des logiciels fermés qui ont disparu, le logiciel libre (et donc ouvert) LaTeX existe depuis plus de 20 ans, mais c'est une exception) ;
  • l'archivage est-il allé jusqu'à conserver aussi la machine de 2006, c'est-à-dire le matériel et les logiciels utilisés ? ce serait une sage précaution...

Aux yeux du non-numérique, 14 ans n'est pas une durée excessive : les photos tirées sur papier, les livres, les disques vinyls ou compact, les lettres, cours et notes papier peuvent avoir plus de quinze ans. Mais dans le monde numérique, les formats sont une épée de Damoclès...

Et pour pour ce qui est du témoignage non-encapsulé de Formats-Ouverts.org, voici : « Les formats sont partout. En 2006, la guerre des formats à lieu dans presque tous les domaines. Standards ouverts et fermés s'affrontent encore plus, avec l'interopérabilité comme sujet à la mode. Qui gagnera et permettra à notre patrimoine numérique d'être conservé ? J'espère les standards ouverts. (Message personnel : les parfums, les goûts et le toucher n'existent pas au format numérique ; et certains souvenirs ne s'oublient pas). »

Rendez-vous à l'ouverture de la capsule en 2020... pour savoir si l'information numérique est pérenne et si Le manuel pratique de l'archivage électronique de Catherine Dhérent aura été un peu suivi.

Sources et liens :
Et sur Formats-Ouverts.org :

« Garantie de l'ouvrage : 120 ans » Et pour les formats ?

Millau, son viaduc et 2 questions sur les formats

Connaissez-vous la sérendipité ? (si vous êtes pressé, vous pouvez passer au 3e paragraphe, mais c'est un peu dommage pour suivre le cheminement...) La sérendipité, ou comment trouver par hasard une information intéressante voire celle recherchée, notamment au gré des liens hypertextes entre les pages Web.

Ainsi, au départ il y a le XIe sommet de la Francophonie. La société RyXéo y était présente. Elle avait un blog, Bucarest 2006 avec une série d'articles. Et parmi ces articles, il y en a un à propos des formats, avec ce passage [1] :

Imaginez que les plans du viaduc de Millau soient dans un format de fichier lisible par un seul logiciel et que ce logiciel vient à disparaître d'ici 10 ans (très probable dans le domaine de l'informatique) comment feront les réparateurs du viaduc lorsqu'il faudra faire appel aux plans initiaux pour concevoir des réparations ?

Cette question est claire et pertinente : comment archiver de tels plans s'ils sont au format numérique ? L'article comporte un lien vers le site du viaduc de Millau [2]. En se rendant sur ce site, on trouve les « Chiffres clés » de la page Les chiffres de tous les records [3]. Et on lit tout en bas de la page les 2 lignes suivantes :

Durée de la concession : 78 ans - 3 ans de construction et 75 ans d'exploitation

Garantie de l'ouvrage : 120 ans

78 ans... 120 ans... ce sont des durées proches de l'éternité aux yeux de l'informatique... Et donc seconde question : dans plus de 70 ans ou dans plus d'un siècle, comment faire pour consulter les plans de cet ouvrage d'art ? quel est le format des plans en question et des informations ?

  • format électronique : comment lire ces données dans autant de temps ? car les matériels et les logiciels vont évoluer... des formats ouverts, certes, mais la gestion des informations sera capitale ;
  • les 2 formats : une version papier (en plusieurs exemplaires) conservée dans des conditions spécifiques et une version numérique, en plusieurs exemplaires aussi ?

Dans cet exemple concret du viaduc de Millau, on ne peut pas se poser la question de savoir s'il est pertinent de conserver les informations techniques : la conservation est obligatoire. Cela renvoie à la problématique de l'archivage électronique et du patrimoine numérique : les 5 questions à se poser sur les formats ne sont pas à oublier.

Sources et liens :
Et sur Formats-Ouverts.org :

Quand le nouveau site Web paraît...

Mais que sont les anciennes pages devenues ?

Annonce sur le site gouvernemental Internet.gouv.fr [1]:

Le site de l’Education nationale fait peau neuve La nouvelle version du site de l’Education nationale est en ligne depuis le 1er septembre 2006. Ergonomie, attractivité : plus qu’une évolution graphique, le site a bénéficié d’une véritable refonte. [2]

Se pose alors la question de la mémoire, du patrimoine et de l'archivage : que sont les anciennes pages devenues ?

Certes, le contenu précédent peut être encore en ligne, mais comme l'indique l'article, il y a une autre présentation graphique. Comment alors consulter l'ancienne version du site, au titre par exemple d'études sur l'histoire et l'évolution des sites Web ? Pour ce qui est des adresses de pages précises (les URL), on suppose qu'il n'y a pas de modification et que la pérennité des références existantes est bien effective.

Certes, le format HTML des pages Web est un format ouvertl'interopérabilité est la plus présente, et l'archivage ne pose pour ce point pas trop de problème. Mais les pages Web ont un format de présentation qui compte aussi : dans le monde du format papier, il y a les différentes éditions des documents qui permettent de se pencher sur leur évolution, à condition qu'elles soient conservées, ce qui est normalement le cas.

Alors pour les sites Web, comment procéder :

  • est-ce sur le site Web en question que les anciennes versions seront disponibles ? L'exemple du site des archives du site du Premier Ministre est à ce titre à signaler [3] : « Le site www.archives.premier-ministre.gouv.fr, permettant l'accès aux versions successives du site du Premier ministre, constitue une véritable base de données de l'activité gouvernementale. » Les versions depuis 1996 sont disponibles.
  • l'ancienne version sera-t-elle sur un site spécial dédié à l'archivage ? Site national, site indépendant ?
  • il n'y a plus rien : les informations ne sont plus disponibles, perdues, comme pour le site des Universités d'été de la communication. Mais faut-il tout conserver (le projet existe) au nom du numérique en apparence plus facile à archiver ? « Un bon archiviste est un bon destructeur » peut-on apprendre...

Cet exemple et les questions qu'il soulève concerne bien sûr tous les sites Web, publics, associatifs, privés voire personnels : c'est la question de la mémoire du Web et du patrimoine produit par les différentes structures.

Sous l'angle des formats, on peut aussi relever 4 points quant à cette nouvelle version du site de l'éducation nationale :

  • point positif : plusieurs flux RSS à un format ouvert XML, « Tous les fichiers R.S.S. doivent être conformes à la spécification X.M.L. 1.0, publiée sur le site Web du World Wide Web Consortium (W.3.C) » [4]
  • point positif : la politique de lien hypertexte, « Le site www.education.gouv.fr autorise, sans autorisation préalable, la mise en place de liens hypertextes pointant vers ses pages », sans lien profond avec imbrication et avec mention de la source [5]
  • point positif : l'annonce d'un effort pour l'accessibilité du site, « Les pages sont mises progressivement en conformité avec les recommandations du référentiel commun des critères d'accessibilité des services Internet de l'administration française pour respecter la loi n°2005-102 du 11 février 2005 pour l'égalité des droits et des chances, la participation et la citoyenneté des personnes handicapées. » [6]
  • pont négatif : le non-respect du format ouvert XHTML : les pages sont déclarées en XHTML 1.0 Strict, mais non valides selon l'outil en ligne Validator du W3C [7]

Le travail réalisé est à souligner et le site saura sans doute encore s'améliorer, souhaitons même avec les archives des versions précédentes.

Sources et liens :
Et sur Formats-Ouverts.org :

Une histoire incroyable : les bandes perdues de la NASA, c'est une affaire de formats

C'est une histoire de formats !

Résumé de l'histoire (vous avez aussi la version très sobre ou factuelle) : La NASA a perdu les bandes originales des premiers pas de l'Homme sur la Lune. Les images enregistrées dessus sont de bien meilleure qualité que ce qui a été rediffusé pour les télés. Et ces bandes ne peuvent être utilisées qu'avec un seul et dernier matériel de lecture existant. Or il doit disparaître car l'unité qui le possède va fermer ses portes en octobre. C'est l'incroyable histoire des bandes perdues de la NASA.

Les formats jouent un rôle important de cette histoire incroyable. Ils sont si présents qu'ils peuvent presque en constituer un chapitre particulier. Donc, après les chapitres I, II et III, voici :

Chapitre IV : illustration du rôle et de l'importance des formats (notamment dans la conservation des données et dans l'archivage électronique)

Point de cours sur l'archivage ci-dessous, mais voici nos amis ou nos ennemis les formats.

Tout d'abord le format des données : dans le cas de la NASA, c'est le format Slow Scan TV (SSTV). C'est un format analogique. Dans le monde du numérique on dirait aussi le format des données, ou le format du fichier. Pour que ce format soit utiliser de la Lune jusqu'aux télévisions dans les foyers, il aurait fallu une chaîne d'appareils sachant tous utiliser le format SSTV. Ce qui n'était pas le cas à l'époque, le format des télés était incompatible avec ce SSTV.

Ensuite le format des données et son inséparable question FOO : Fermé Ou Ouvert ? Si le format est fermé, on ne sait rien dessus, excepté les auteurs dudit format qui sont donc les seuls à le maîtriser : et s'ils disparaissent, s'ils arrêtent... Inversement, si le format est ouvert, la pérennité est plus assurée : les informations techniques dessus sont disponibles.

Enfin le format du support utilisé : la NASA a employé des bandes magnétiques, qui ont des caractétistiques (matière, dimensions, masse,...) et qui sont obligatoirement dépendante d'un appareil de lecture. Cet appareil pour lire peut être différent de celui qui enregistre (comme par exemple pour les disques vinyl). Sans son appareil de lecture, un support n'est rien. Si la laboratoire DEL possédant le dernier lecteur de bandes SSTV ferme...

On peut aussi ajouter le format des câbles et des prises utilisés pour relier, connecter ou alimenter les appareils. Les formats sont presque partout dans le monde technique. Finalement, c'est une série de questions EL qui se pose : ELF, Et Le Format ? ELS-L, Et Le Support-Lecteur ? ELM, Et Les Métadonnées (ou le récolement) ? ELG , Et La Gestion (des archives) ?

Chapitre V : d'autres questions se posent

Comment est-il possible d'égarer de la sorte des bandes aussi importantes de la part d'une organisation comme la NASA ? Et la conservation et la gestion des archives ? « Allô la Direction des Archives de France, Martine de Boisdeffre ? Ce serait pour donner une information sur les services d'archives dans les États et les structures gouvernementales. » [1]

Comment l'informatisation des archives peut-elle sembler aussi peu importante à la NASA ? Et l'utilisation des métadonnées et le records management ? « Allô la Bibliothèque nationale de France, Catherine Dhérent ? Ce serait pour faire une intervention sur la mise en place d'un système de records management. »

Comment ne pas penser aux puces RFID qui seraient si utiles sur ces bandes, véritables « trésors », pour en avoir un meilleur suivi. Mais encore faut-il retrouver les bandes...

Annexe pour être complet

Le point de départ de cette histoire incroyable est le remarquable document de John M. Sarkissian [2] qui travaille à l'observatoire Parkes, en Australie [3]. Cet observatoire fait partie du CSIRO (Commonwealth Scientific and Industrial Research Organisation), l'organisme gouvernemental australien pour la recherche scientifique [4]. L'observatoire de Parkes a aussi été l'un des 3 centres sur Terre à avoir reçu les images émises depuis la Lune le 21 juillet 1969.

Aucun des nombreux articles [5] qui traitent de cette information n'a indiqué ce document. Il n'y a que l'article du Nouvel Observateur qui fait plusieurs citations de John M. Sarkissian. Son document est donc en quelque sorte au format exclusivité sur Formats-Ouverts.org ! (le site Slashdot le mentionnait aussi [6]).

Enfin, il faut indiquer qu'il est possible de revoir des images d'époque, donc en qualité inférieure aux originales tant recherchées :

  • sur le site de la NASA [7] qui propose des pages consacrées à la mission Apollo 11, avec une video du module lunaire qui se pose et une autre du premier pas sur la Lune. Toutes deux sont au format AVI [8] ;
  • avec les commentaires en français d'époque, le site de l'INA [9] propose aussi de revoir les images du premier pas sur la Lune, « au format QuickTime ainsi qu'au format Real et Windows Media'' ». [10]
Sources et liens :
Et sur Formats-Ouverts.org :

Site Web et archive : un cas concret

Un an après : plus rien...

Il y a un an, le 23 août 2005, l'article de Formats-Ouverts.org traitait d'un débat du jeudi 23 août 2001, et aussi du projet MyLifeBits et des 60 ans du Memex. En ce 23 août 2006 il est intéressant de revenir sur cet article pour parler de l'archivage de site Web.

Le débat il y a 5 ans était intitulé « Classer/Détruire : comment émerger des océans de données ? » : il se déroulait lors de la 22e Université d'été de la communication (UEC) de Hourtin [1] et comprenait 3 intervenants (de l'Université de Paris VIII, de Kleio.net et du CNRS) et 1 intervenante, Catherine Dhérent (de la Direction des Archives de France, Ministère de la culture et de la communication).

Et quel est le nom des 3 intervenants ? A priori, il suffit de cliquer sur le lien indiqué dans l'article de 2005, (www.crepac.com/Hourtin-2001/calendrier/evenement.asp?numero=498). Et le programme de cette 22e UEC ? A priori, il suffit de consulter le site (Crepac.com). Et les Universités d'été de la communication de 2002 ou 2003 ? A priori, elles sont sur le site aussi.

Erreur ! On obtient « Site introuvable » car il n'y a plus de site ! Depuis un an, plus aucune page officielle, plus aucun contenu...

L'université d'été de la communication était une manifestation reconnue. Elle a cessé en 2005 : la dernière a donc eu lieu en 2004, c'était la 25e du nom. Un thème particulier était le fil rouge de chaque édition qui constituait un rendez-vous important juste avant la rentrée, avec des exposants, des visiteurs, des ministres, des annonces et des journalistes.

Mais avec la fin de l'UEC, malgré l'importance, fin aussi du site Web. Il ne reste donc presque rien en ligne du site officiel : pas de cache Google, et quelques pages sur le site d'Internet Archive [2]. L'archivage électronique n'est pas encore aussi systématique, et les informations sur le Web sont finalement assez fragiles.

Heureusement, il peut y avoir des pages sauvegardées sur sa machine (à condition aussi de les gérer) et aussi des documents au format papier (programmes, cartes, dépliants, notes,...), lui aussi format ouvert et faisant preuve d'interopérabilité.

Et cet exemple n'est presque rien en comparaison de l'incroyable histoire prochaine...

Sources et liens :
Et sur Formats-Ouverts.org :

Les archives, le numérique et les formats

Les archives à l'ère du numérique

L'archivage et les formats sont deux sujets presque indissociables. Dans le monde numérique toujours plus présent, on les rencontre systématiquement, à propos des formats des supports, des formats ouverts des données ou de la gestion des archives numériques.

L'importance des archives est capitale : elles concernent le patrimoine, la mémoire, l'histoire... Il s'agit donc de conserver des documents numériques (textes, images, sons, video,...) pour lesquels les dangers des formats (plus la bonne version du logiciel utilisé, plus de logiciel de lecture,...) sont bien pris en compte (voire résolus).

Ce sujet de l'archivage électronique est une préocupation à un haut niveau national, notamment au sein de la Direction des Archives de France (DAF) du Ministère de la culture et de la communication :

  • Le futur Centre des Archives nationales de Pierrefitte-sur-Seine aura un volet électronique : parmi les principaux objectifs du projet, il s'agit de « prendre la mesure de l'administration électronique et l'adapter aux impératifs futurs du service public des archives sur le plan de la pérennité, de la sécurité et de l'accès aux données archivées au format électronique » [1];
  • Force est de constater que « L'archivage électronique prend une place prépondérante, à la mesure de la révolution numérique qui est à l’œuvre dans le domaine de la production de l'information par les services de l'État. » [2]
  • Le Ministre de la culture a annoncé le 16 février dernier : « En 2006, sera développé le pilote de la plate-forme d'archivage électronique. Opérationnel en 2007, ce système préfigure le système de grande ampleur dont le centre de Pierrefitte-sur-Seine sera doté pour son ouverture. » [3]

Les standards ouverts sont la meilleure solution pour l'interopérabilité, mais aussi ici pour la pérennité des informations, et donc pour la mémoire et le patrimoine numériques.

Autres articles sur les archives et les formats :
Sources et liens :