Formation Perl

L'Association Francophone des Utilisateurs de logiciels libres (AFUL)

Pour les formats ouverts !


Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des standards ouverts (formats, protocoles) dans différents domaines (comme l'interopérabilité, l'archivage et presque partout), depuis le 1er juillet 2004 (soit plus de 2300 jours) - Il y a actuellement plus de 2600 articles en ligne - L'année 2010-2011 est la saison 7 du site : l'article des 6 ans et l'article 2500, La terrible maladie des figuiers de bonnets


Depuis le site de microblog Identi.ca, les 12 derniers sites pdlsa relevés par tsfoo : Autorité de sûreté nucléaire (ASN), Carte Musique Jeune, Festival de Deauville, SNCF-International, Aubade, VSD, Dassault Systèmes, Cegid, Axway (Sopra group), Linedata Services, Sophis, Bill & Melinda Gates Foundation, Le Festival de Cannes, Sage (voir une liste qui en reprend et plus complète).


Ne me suivez pas sur Twitter, ni sur Facebook : je n'y suis pas. Et il n'y a pas non plus d'applicaton iPhone ni Android pour FOo. En revanche, il y a le site Web (vous y êtes !), le compte tsfoo sur Identi.ca (depuis juillet 2009) et le compte thierrystoehr sur Twitter (depuis octobre 2011).


60 ans de programmes

Ah ces archives...

Le magazine Télérama fête ses 60 ans en 2010 : le premier numéro est paru en janvier 1950 sous le nom de Radio Cinéma Télévision (et le nom actuel a été instauré en 1960). Pour marquer cet anniversaire, trois formats ont été retenus :

  • un article spécial fin juin [1], assez classique ;
  • un livre en deux volumes, avec notamment des fac-similés, paru début 2010 [2] ;
  • un numéro spécial et double : le magazine hebdomadaire et 90 pages spéciales supplémentaires « avec S+ARCK ».

Le format papier occupe la place de choix, même si le site Telerama.fr est en ligne depuis 11 ans. Mais pour les archives communes aux deux versions, format papier ou numérique ? Avec pour le numériques le problème des supports et des formats qui ne sont pas ouverts.

Sources et liens :
  • [1] Article, Nos belles années, de Nicolas Delesalle, le 23 juin 2010, Télérama n°3154, page 28 à 31 et http://www.telerama.fr/monde/nos-belles-annees,57435.php
  • [2] Livre, 60 Ans, nos années culture, éditions Les Arènes, deux volumes : 1950-1980 et 1980-2010
  • [3] Télérama, numéro 3155, du 30 juin 2010
Le 30 juin sur Formats-Ouverts.org :

Fête du patrimoine 2009

Un des sujets traités depuis les débuts de Formats-Ouverts.org (soit depuis plus de 5 ans) concerne les archives et l'archivage numérique. Dit autrement : le patrimoine numérique et les formats, ouverts ou pas.

Pour l'édition 2009 des Journées européennes du patrimoine, voici donc quelques articles déjà publiés sur le sujet issus du (modeste) patrimoine de Formats-Ouverts.org :

Et sur Formats-Ouverts.org le 19 septembre :

Et les archives ? Deux listes

Voici un article en 2 parties : une liste assez longue liste et variée d'âges et de dates... une liste moins longue de questions...

Une liste d'âges et de dates pour 2009
  • les 120 ans de la maison Paul ;
  • les 90 ans de Danone en avril ;
  • les 60 ans du journal Pilote ;
  • les 60 ans de Paris Match en mars ;
  • les 40 ans du magazine Parents ;
  • les 30 ans du mensuel Géo en mars ;
  • le n°20000 du journal Le Monde le 14 mai ;
  • le n°20000 de L'Équipe le 10 avril ;
  • le n°20000 du quotidien Le Parisien (fin décembre 2008) ;
  • le n°1000 de l'hebdomadaire Télé câble sat (semaine du 4 au 10 juillet) ;
  • la centième édition du Guide Michelin ;
  • la nouvelle formule de VSD en avril.
Une liste de questions

Qu'en est-il des archives de ces structures, qui ont un patrimoine important sous la forme de leurs anciens numéros ou des documents qu'ils ont créés (publicités, rapports,...) : celles au format papier ? celles au format numérique ? Pour ces dernières : les supports de stockage (disquettes, bandes, CD, DVD, disques durs,...) sont-ils encore utilisables et lisibles grâce à un lecteur adéquat ? le récolement a-t-il été fait ? les fichiers sont-ils encore ouvrables avec les logiciels qui comprennent le format utilisé ? Bref, la question des formats physiques et numériques (ouverts ou pas) dans l'archivage.

Et sur Formats-Ouverts.org le 25 juin :

Le 9 décembre 1958

Depuis 50,50 ans, des débats et des formats

50 ans et demi en arrière, le 9 décembre 1958, s'ouvrait la première législature de la Ve République suite à la promulgation de la Constitution du 4 octobre 1958. Pour marquer le cinquantenaire de cette constitution, l'Assemblée nationale a organisé le 7 octobre 2008 une journée spéciale : discours, expositions, timbre-poste, fresque... [1]

Et pour les formats ? Il y a tous les débats !

En effet, l'intégralité des débats depuis un demi siècle est disponible en ligne dans les formats ouverts PDF et HTML. Lire par exemple les déclarations des députés 10, 25 ou 50 ans en arrière est très intéressant... Un site spécial pour ces archives a donc été mis en ligne : archives.assemblee-nationale.fr [2], une adresse au format clair et logique.

Voilà un bel exemple à mettre en avant : quand l'utilisation de formats ouverts permet l'archivage au service de la mémoire et de la démocratie.

Sources et liens :
Et sur Formats-Ouverts.org le 9 juin :

La mémoire (France Inter)

2 émissions en début de matinée sur France Inter

Le sept neuf, tranche de 7h à 9h les week-ends sur France Inter, du samedi 16 mai et du dimanche 17 mai 2009 portait sur La mémoire [1].

Pendant les 2 heures, l'émission a proposé chaque jour des entretiens et interventions, animés par le journaliste Stéphane Paoli. Les invités présents étaient :

  • François Ede, restaurateur des films de Jacques Tati et de Pierre Etaix (le samedi) ;
  • Emmanuel Hoog, président-directeur général de l'Institut National de l'Audiovisuel (INA) (le samedi) ;
  • Sylvie Rousset, Directrice de recherches au CNRS, Université Paris-Diderot 7 (le dimanche) ;
  • Professeur Yves Agid, neurologue, chercheur en biologie, spécialiste des neurosciences (le dimanche).

Ce sujet de la mémoire concerne la conservation, l'archivage, la mémoire, le patrimoine, la numérisation et aussi... les formats (bien sûr !), avec l'importance de ceux qui sont ouverts.

Sources et liens :
Et sur Formats-Ouverts.org le mai 21 :

Toutes les affiches s'affichent

Les archives des affiches depuis 1984

Septembre fut comme chaque année le mois des Journées du patrimoine [1], lors du troisième week-end du mois. Pour l'édition 2008, le cas des accents qui ne se suivent pas a déjà été évoqué.

Mais en 2008, il faut aussi signaler une mise en avant du patrimoine... des Journées du patrimoine : en effet le site propose les affiches de toutes les éditions depuis 1984 [2]. On retrouve donc les 25 affiches, avec le titre exact de la manifestation, leur date, leur illustration.

Ce bel exemple d'archives en ligne est à suivre, avec si possible une adresse qui reste permanente, avec les affiches des prochaines éditions, et aussi avec les affiches dans un autre format que le seul visuel affiché dans la page Web, comme un PDF en A4 (deux formats ouverts).

Sources et liens :
Et sur Formats-Ouverts.org à la même date :

La Tribune, La revue des deux mondes et les archives

Des archives au format numérique pour 2 journaux

La Tribune [1] et La revue des deux mondes [2] ont toutes deux mis en ligne leurs archives en 2008 : en avril pour le quotidien économique et en juin pour la plus ancienne revue en Europe qui propose la recherche dans ses articles depuis le numéro du 7 avril 1829. Ces archives sont consultables gratuitement et sans inscription.

Les archives s'installent de plus en plus sur le Web, en complément du format papier, comme déjà pour The New York Times en septembre 2007 et The Times en juin 2008.

Quand elles sont en format texte (ou HTML), ces archives au format numérique utilisent des formats ouverts qui garantissent l'interopérabilité et l'accès à ces informations.

Sources et liens :
Et sur Formats-Ouverts.org :
  • le samedi 30 juin 2007 : 1 article (Pas d'appareils Blackberry dans les cabinets : l'arbre qui cache la forêt ?)
  • le vendredi 30 juin 2006 : 1 article (Le format ODF et l'administration : 3 conférences aux RMLL 2006)
  • le jeudi 30 juin 2005 : 1 article (La double guerre des formats dans la guerre des consoles : Xbox 360 avec HD-DVD contre PS3 avec Blu-ray)

The Times ouvre ses archives

200 ans de presse en ligne

Le 17 septembre 2007, The New York Times annonçait que ses archives étaient accessibles gratuitement pour la période de 1987 à nos jours, pour celle de 1851 à 1922 (la période 1923 à 1986 est en partie payante) [1].

Le 26 juin 2008, The Times a annoncé que toutes ses archives du 1er janvier 1785 au 31 décembre 1985 sont disponibles, soit deux siècles d'articles. L'enregistrement est nécessaire, la décision n'est pas définitive [2].

Et Les Formats (ELF) ? Réponse de The Times [3] : l'article est proposé en tant qu'image de la page où il était originellement imprimé, avec une version au format texte proposé après le travail automatique (pas de relecture pour corriger) d'un OCR.

Donc les formats image et texte brut (2 formats ouverts) comme formats numériques, face au format papier d'origine.

Sources et liens :
Et sur Formats-Ouverts.org :
  • le mercredi 27 juin 2007 : 1 article (La reprise de l'existant et CIPISI)
  • le mardi 27 juin 2006 : 1 article (Nouvelle liste de conférenciers du thème « Standards Ouverts - Interopérabilité »)
  • le lundi 27 juin 2005 : 1 article (Textes importants (mais au format crypté) pour des formats fermés)

Archivage et conservation numériques : 2 débuts d'articles (et d'autres en entier)

Voici les premières lignes

Le journal suisse Le Temps a publié le un article intitulé « Quand les écrits s'envolent » [1], qui commence ainsi :

CONSERVATION. Avec le temps, les supports de l'écriture résistent moins bien. Comment va-t-on lire les fichiers électroniques dans dix ans? Les spécialistes se consultent.

Le journal Courrier international a repris l'article, avec ce titre : « ARCHIVAGE Les écrits aussi peuvent s'envoler » [2] et ce début :

On peut encore lire des textes vieux de 5 000 ans, mais pas le premier e-mail, envoyé il y a trente ans… A l'heure du tout-numérique, la conservation des documents se pose de façon aiguë, explique le quotidien suisse Le Temps.

Impossible d'en lire plus sans abonnement ou achat : le modèle économique en place est payant pour les anciens articles, ce qui est une des approches éditoriales possibles. Mais ces 2 débuts signalent bien 2 problèmes à propos des formats :

  • celui des supports numériques (disques durs, clé USB, CD, DVD, disquettes ou bandes) ;
  • celui des fichiers de données enregistrées sur ces supports : fermés ou ouverts ?
Voici d'autres articles, avec toutes les lignes

Pour ce qui est des anciens articles d'un journal, il faut souligner la décision du New York Times (NYT en format abrégé) en septembre 2007 de changer de modèle en mettant en accès ouvert l'ensemble de ses articles [3]. Pour ce qui est Formats-Ouverts.org, même si la comparaison n'est absolument pas de mise, tous les articles sont en ligne depuis le 1er juillet 2004, et parmi eux, certains traitent de conservation et d'archivage numériques :

Sources et liens :
Et sur Formats-Ouverts.org :

Les CD ne sont pas éternels, annonce la télé

Un reportage au journal télé de 20h

Lundi 3 mars 2008, journal de 20h de France 2 [1] : un reportage intitulé Les CD vierges ne sont pas essentiels (pas éternels est plus exact). Le présentateur, David Pujadas, annonce :

Une information qui va peut être alerter beaucoup d'entre vous... On pensait que les CD vierges étaient éternels, supports idéaux pour enregistrer et sauvegarder les photos de famille, les informations administratives ou médicales... Eh bien il n'en est rien... Le stockage numérique ne résiste pas au temps... La durée de vie de ces supports oscille entre 2 et 10 ans... Enquête Michel Mompontet, Jean-François Monnier

Pendant un peu plus 3 minutes, sur des musiques plutôt de science fiction, les formules tombent : « ça été une très grande surprise », « résultat catastrophique », « CD muet », « le CD-R devait tenir un siècle », « informations réduites en poussière », « la seule manière est de faire des mesures », « photos et textes perdus », « INA menacé »... Finalement, « quelles traces seront laissées aux générations futures ? »

C'est exact (et ce n'est pas vraiment nouveau) : le CD vierge qui est gravé a une durée de vie limitée, il n'est pas gravé comme l'information l'est dans de la pierre. Ce reportage diffusé à une heure de grande écoute a peut-être permis d'alerter et de faire prendre conscience de la fragilité de notre mémoire numérique :

  • en premier, fragilité des supports, dont les appareils de lecture peuvent disparaître...
  • puis fragilité des fichiers, dont les formats peuvent être fermés ou avoir disparu...

Complément important au reportage : les disques durs (internes ou externes) ou les clés USB, actuellement très utilisés, ne sont pas plus éternels ! Il faut gérer le patrimoine numérique comme quelque chose de dynamique et non pas de statique une fois gravé, en utilisant des formats ouverts pour garantir l'archivage.

Voir aussi l'article « Attention, l'humanité perd la mémoire » et ses 13 articles en référence.

Sources et liens :

Les Archives Nationales du Royaune Uni et Microsoft : préservation numérique

Les formats dans les archives numériques : un accord privé-public, et des questions

Ce mercredi 4 juillet 2007, les Archives Nationales du Royaume Uni (The National Archives, TNA, [1]) et Microsoft ont annoncé un « Memorandum of Understanding (M.O.U) » qui « assure la préservation des enregistrements numériques nationaux, passés, présents et futurs ».

La lecture du contenu du communiqué de presse [2] peut soulever questions et remarques à propos des formats et de l'archivage.

Les Archives Nationales du Royaume Uni vont « participer aux futures versions des produits de Microsoft ». Pour les documents aux formats de Microsoft, c'est une bonne chose. Mais pour les autres formats ? Et ces liens forts auront sans doute un poids dans les conseils et les préconisations futures des archives officielles.

Il est indiqué que des « logiciels qui prennent en charge des formats de fichiers anciens ne sont plus disponible à la vente ». C'est exact, pour Microsoft comme pour d'autres éditeurs : de plus, quand le format de ces fichiers anciens est fermé et n'était lisible qu'avec ces logiciels, le piège est là, et il se referme.

Natalie Ceeney, Chief Executive de The National Archives, parle du « travail avec l'industrie des technologies de l'information » mais aussi pour la collaboration avec Microsoft « des outils clés pour accéder aux informations du gouvernement des années à venir. » Mais est-il sûr que les informations du gouvernement seront toutes dans des formats Microsoft ? n'y a-t-il aucune diversité ?

C'est le logiciel Microsoft Virtual PC 2007 [3] qui « permet d'accéder aux anciennes versions de Microsoft Windows et Office ». Il ne s'agit donc pas des ordinateurs et logiciels d'époque mais d'une émulation des logiciels anciens et de leurs formats : remonte-t-il assez loin dans le temps ? et si les informations sur les formats ont été perdues ?

Une des perspectives citée est « d'augmenter l'accessibilité de ces documents en convertissant ces informations dans de nouveaux formats ouverts de fichiers » : donc passer de formats fermés anciens à des formats ouverts actuels d'Office 2007 comme PDF ou ODF ou seulement OpenXML.

Gordon Frazer, Managing Director UK et Vice President Microsoft International déclare que « les formats de fichiers basés sur le XML déverouillent les données des documents » : mais les formats de la catégorie XML ne sont pas obligatoirement des formats ouverts.

Adam Farquhar, Chef de eArchitecture à la British Library (qui a un partenariat de bibliothèque numérique et d'archivage de courriels avec Microsoft) et co-président du comité de standardisation Office OpenXML ECMA, parle d'« accéder demain au informations numériques d'aujourd'hui ». Donc ces informations officielles sont (seront) toutes aux formats Microsoft. Il parle aussi du « défi de préserver l'hétitage de la nation », ce qui est très important à voir le documentaire Sauve qui peut le numérique.

Finalement :

  • comment faire pour les documents Wordperfect ou 123 ou XPress conservés : car la question se pose aussi pour ces formats fermés ;
  • pour des structures moins importantes que les Archives Nationales (comme les petites et moyennes entreprise, les associations, les particuliers), il n'y a pas d'accord avec l'éditeur et les formats fermés emprisonnent les informations ;
  • concernant les anciens fichiers, il n'y a aucune mention du problème des formats fermés ;
  • à propos de l'avenir, il n'est pas envisager ici d'autres formats que ceux de Microsoft (en évitant la situation de la Corée du Sud...), et encore moins d'avoir des formats ouverts pour être indépendant et maître de ses données, ce que des États ont exigé.

Pour l'interopérabilité, la conservation, l'indépendance et le contrôle des données, l'approche consistant à utiliser des standards ouverts reste la plus pertinente, mais aussi celle qui est combattue avec des États qui reculent.

Autres articles sur l'archivage numérique :
Sources et liens :
Et sur Formats-Ouverts.org :

Archiver des courriers électroniques : la British Library et...

Juste 2 lignes

Au départ, il y a juste 2 phrases dans un journal non-informatique, Télérama (dans le n°2995, page 9 - dans ce même numéro se trouve page 19, la publicité Apple-Orange avec des erreurs de format). On lit donc dans la rubrique Vite dit, sous le titre A sauvegarder :

La British Library (à Londres) souhaite établir la première collection au monde d'e-mails (ou courriels). Les Britanniques sont invités à lui transmettre les e-mails qu'ils jugent dignes d'intérêt « sur un plan social et historique ».

Et 3 remarques

Première remarque sur ces 2 phrases : un courrier électronique (ou courriel en format plus concis et officiel) est un document qui a un format ouvert : c'est du texte brut, voire du HTML (ce qui ne devrait pas être le cas théoriquement).

Deuxième remarque : comme tout document numérique, il n'y a aucun caractère unique ni aucune rareté. La copie à l'identique est intrinsèque.

Troisième remarque : l'élaboration d'un faux courriel est hélas tout à fait possible (sans signature certaine).

En d'autres termes, un document numérique ne peut être comparé par exemple à la lettre écrite par Charles-Henri Sanson [1], bourreau (exécuteur des hautes œuvres de Paris), qui a exécuté Louis XVI le 21 janvier 1793 : elle fut vendue aux enchères le 7 juin 2006 chez Christie's et elle était unique. Comme sont uniques vos lettres et autres notes manuscrites.

Et le communiqué de presse dit : British Library et Microsoft

Mais où sont les sources de l'information ? Sans doute sur le site de la British Library. En effet, un communiqué de presse a été publié le 3 mai [2]. Et la première phrase indique :

Pour célébrer le lancement au Royaume-Uni du nouveau Windows Live Hotmail, Microsoft a annoncé une collaboration unique avec la British Library pour créer la première archive de courriers électroniques.

Il s'agit donc d'une action de la British Library et de Microsoft à l'occasion du lancement mondial de Windows Live Hotmail avec communiqué de presse de Microsoft [3] (qui ne cite pas l'initiative et qui propose une capture d'écran avec une photo de 2 pingouins !). La British Library a déjà travaillé avec Microsoft (groupe de travail ECMA pour OpenXML ou bibliothèque numérique par exemple).

Le site de l'opération n'est pas celui de la British Libray, mais Email Britan [4]. Il y est précisé que l'envoi du courriel se fait par tranfert (forward en anglais, et pas de redirection, bounce en anglais [5]). L'opération a duré du 1er au 31 mai 2007, réservée aux résidents du Royaume-Uni, Microsoft se réservant la possibilité de vérifier, comme indiqué dans les « Règles de la Campagne » [6].

Comme le veut le format des communiqués de presse, les 2 derniers paragraphes avant les informations de contact sont 2 citations de 2 responsables de l'opération et celui de la British Library indique que « l'archivage numérique de courriers électroniques n'a jamais été entrepris auparavant à cette échelle ».

Cette opération est une illustration intéressante du sujet de l'archivage numérique : a priori il est aisé (plus que le cas de la capsule Yahoo!, du viaduc de Millau ou que l'informatique immortelle) car les courriels sont « du texte », un format ouvert, utilisable dans n'importe quel logiciel de messagerie électronique. L'interopérabilité est en action (exception faite du cas où le format texte est transformé en code binaire).

Sources et liens :
Et sur Formats-Ouverts.org :

L'Ina a archivé : et le format ?

Archivage des élections présidentielles de 2007

« L’Ina archive sites et blogs relatifs aux élections présidentielles » : tel est le titre du communiqué de presse diffusé par l'Institut national de l'audiovisuel (Ina) le 10 mai 2007 (au format PDF) [1].

L'information a été reprise [2] et elle est importante : en effet, les élections présidentielles de 2007 ont vu l'utilisation pour la première fois de manière importante d'Internet avec les sites Web, les blogs, les commentaires, les listes de diffusion, les documents à télécharger,... Il s'agit donc d'archiver les publications électroniques de cette période.

Les sites Web, les forum et les blogs utilisent le format ouvert HTML, mais aussi de la video, de l'audio ou des documents à télécharger à différents formats, notamment fermés (Quicktime, Flash ou WMV pour la video, MP3 ou WMA pour l'audio, .doc pour les textes).

L'Ina a donc archivé ces éléments dans le cadre de sa politique numérique : mais comment ? Quel est le format utilisé ? Ouvert ou fermé ? (Deux leitmotiv de Formats-Ouverts.org.) Les articles de presse reprennent le communiqué de presse officiel : c'est « le format de stockage DAFF développé par l'INA ». Certes, mais encore... :

  • que signifie DAFF ?
  • où se trouve les informations techniques sur ce format ?
  • l'Ina est-il le seul à l'utiliser ?
  • y a-t-il des métadonnées qui sont rajoutées ?
  • y a-t-il un travail commun avec la Bibliothèque nationale de France (BnF) ?
  • ce format entre-t-il dans le cadre de la formation de conservateur du patrimoine audiovisuel lancée par l'Ina ?
  • quelle est la licence d'utilisation ?
  • et finalement : le format DAFF est-il un format ouvert ou fermé ?

Sur le site officiel ou dans les articles de presse, aucune précision n'était indiquée à propos de cette action à saluer pour la préservation et la conservation de cette période, encore plus si le format utilisé est ouvert.

Sources et liens :
Et sur Formats-Ouverts.org :

Les archives des sites de l'Élysée et du Premier ministre

La mémoire numérique des informations officielles

Mai 2007 : élection d'un nouveau Président de la République et nomination d'un nouveau Premier ministre. Qu'en est-il des archives des sites Web pour les périodes précédentes ? D'autant que pour l'Élysée il est lancé depuis 1995 avec Jacques Chirac, alors que plusieurs Premiers ministres se sont succédés depuis 12 ans.

Pour le site de Matignon, comme cela s'est systématiquement déjà produit, les « Archives du site du Premier ministre » sont en ligne sur le site même [1]. Pour le site de la Présidence de la République, les pages sont en ligne avec la mention « Archives de la Présidence de M. Jacques Chirac 1995 - 2007 » [2]. Ainsi est-il possible de lire la page de la dernière allocution de Jacques Chirac Président, le 15 mai 2007 (un mardi) à 20h [3], avec ses 3 versions : écrite (format texte en HTML), audio (formats MP3 et WMA) et video (formats WMV et Quicktime). Le premier est le seul ouvert, et les pages Web assure l'interopérabilité.

Sources et liens :
Et sur Formats-Ouverts.org :

Voici « l'informatique immortelle »...

Un projet assez futuriste, avec l'éternelle question ELF : Et Les Formats ?

Voici tout d'abord la petite histoire de cette histoire :

  • le 25 janvier, sur le site de 01Informatique, je découvre un article qui traite de l'information [1] ; je la mets immédiatement dans mon fichier de notules et fais quelques recherches :
    • le 22 janvier un long article est paru sur le site du journal Seattle Post Intelligencer, et semble être le point de départ [2] ;
    • le même jour, le site Slashdot reprend l'information avec un lien complémentaire [3] ;
  • le 1er février cela est publié brièvement en notules sur Formats-Ouverts.org et mentionné lors de la conférence de l'après-midi ;
  • le 22 février Jérôme Colombain traite du sujet dans sa chronique sur France Info [4] : je me dis qu'il faut publier ! Voici donc :
« Immortal Computing », tel est son nom

Les brevets sont bavards : c'est de là que l'information est partie. Microsoft a déposé en 2005 par l'intermédiaire d'un de ses chercheurs, Andrew Wilson [5], des brevets concernant « Immortal information storage and access platform », soit « une plateforme de stockage et de consultation immortelles d'informations » [6]. Le brevet a été rendu public début 2007.

Ce projet vise donc à conserver la mémoire numérique que nous constituons (photos, video, textes, sons,...) avec la possibilité de la restituer aux bonnes personnes, c'est-à-dire celles autorisées à les consulter (comme des membres de sa famille, avec authentification biométrique ou ADN), y compris sur la sépulture de l'auteur décédé.

Plus ambitieux encore, l'idée serait d'arriver à se passer le plus possible de support physique et d'avoir aussi des informations « auto-explicatives » pour les consulter malgré l'évolution des technologies.

Ce projet fait penser à The Handle System, avec le principe de digital object identifier (DOI) [7], un projet issu des travaux de Bob Kahn [8], un des pères d'Internet. Plus récemment, début novembre 2006, la société Yahoo! a fait parler de son projet Yahoo! Time Capsule qui sera ouverte en 2020 avec des témoignages de 2006 (cette capusle n'a rien à voir avec celle de café...)

ELF : Et Les Formats ?

La question des formats vient immédiatement à l'esprit (du moins sur Formats-Ouverts.org !) et se pose à 2 niveaux :

  • le format des supports : même si on veut les supprimer au maximum, le point demeure. Papier, parchemin, pierre, verre, bois voire argile : ces supports non-électroniques ont montré au cours de l'histoire qu'ils conservent l'information à très long terme par rapport aux quelques années pour le numérique ;
  • le format des données (ou celui de leurs fichiers) : quel logiciel saura lire les informations ? le format sera-t-il ouvert ? Même avec un système « auto-explicatif », comme celui utilisé pour la sonde Voyager (le « Golden record ») [9] où on explique dans un langage symbolique comment consulter les données enregistrées, cela ne garantit pas la bonne utilisation de ces données.

Que ce soit pour soi, pour un pays comme pour l'humanité, le sujet de la mémoire, du patrimoine et de l'archivage est central, et celui des formats aussi à l'ère du numérique.

(Pour l'instant le site Microsoft Research [10] n'a fait que mentionner dans son fil RSS [11] l'article du Seattle Post Intelligencer. Mais aucune page n'y est consacrée, ni sur le site de Microsoft. En revanche, le projet de Trustworthy Computing (L'informatique de confiance) [12] est lui bien présent... mais sans doute bien plus concret et plus intéressant, même si une convergence des deux serait possible.)

Sources et liens :

(Cet article a été frappé par le syndrome de la référensite avec des liens très (voire trop ?) nombreux... en espérant qu'ils servent.)

Et sur Formats-Ouverts.org :

Rendez-vous en 2020 pour se confronter aux formats

La capsule Yahoo! et les formats

Le 8 novembre 2006 à minuit, Yahoo! met fin à la collecte des témoignages pour son projet de Yahoo! Time Capsule [1] élaboré avec l'artiste Jonathan Harris : il s'agit d'enregistrer via le site Web dédié les témoignages des internautes (texte, image, son) à propos de ce qui constitue leur vie en 2006. [2]

La capsule sera enterrée dans un lieu secret de la Silicon Valley et placée aussi dans les archives du Smithsonian Institution [3]. La capsule sera réouverte en 2020 pour les 25 ans de Yahoo!.

Et Les Formats ? (ceux de 2006 dans 14 ans...)

Voici une excellente illustration du sujet des formats et de l'archivage : cette mémoire numérique sera-t-elle consultable dans 14 ans ?

  • se souviendra-t-on où est enterrée la capsule et où elle elle est rangée dans les archives ? (la NASA n'est pas à imiter...) ;
  • le format des supports utilisés (CD, DVD, disque dur, clé USB,...) sera-t-il en bon état ? serat-til lisible avec les lecteurs et les prises nécessaires ?
  • les formats numériques des textes, images, sons, video seront-ils utilisables avec les logiciels de 2020 ? ces formats sont-ils ouverts ou propres à un logiciel ?
  • si les formats sont liés à un logiciel fermé, quelle garantie pour qu'il existe encore en 2020 ? (à l'inverse des logiciels fermés qui ont disparu, le logiciel libre (et donc ouvert) LaTeX existe depuis plus de 20 ans, mais c'est une exception) ;
  • l'archivage est-il allé jusqu'à conserver aussi la machine de 2006, c'est-à-dire le matériel et les logiciels utilisés ? ce serait une sage précaution...

Aux yeux du non-numérique, 14 ans n'est pas une durée excessive : les photos tirées sur papier, les livres, les disques vinyls ou compact, les lettres, cours et notes papier peuvent avoir plus de quinze ans. Mais dans le monde numérique, les formats sont une épée de Damoclès...

Et pour pour ce qui est du témoignage non-encapsulé de Formats-Ouverts.org, voici : « Les formats sont partout. En 2006, la guerre des formats à lieu dans presque tous les domaines. Standards ouverts et fermés s'affrontent encore plus, avec l'interopérabilité comme sujet à la mode. Qui gagnera et permettra à notre patrimoine numérique d'être conservé ? J'espère les standards ouverts. (Message personnel : les parfums, les goûts et le toucher n'existent pas au format numérique ; et certains souvenirs ne s'oublient pas). »

Rendez-vous à l'ouverture de la capsule en 2020... pour savoir si l'information numérique est pérenne et si Le manuel pratique de l'archivage électronique de Catherine Dhérent aura été un peu suivi.

Sources et liens :
Et sur Formats-Ouverts.org :

« Garantie de l'ouvrage : 120 ans » Et pour les formats ?

Millau, son viaduc et 2 questions sur les formats

Connaissez-vous la sérendipité ? (si vous êtes pressé, vous pouvez passer au 3e paragraphe, mais c'est un peu dommage pour suivre le cheminement...) La sérendipité, ou comment trouver par hasard une information intéressante voire celle recherchée, notamment au gré des liens hypertextes entre les pages Web.

Ainsi, au départ il y a le XIe sommet de la Francophonie. La société RyXéo y était présente. Elle avait un blog, Bucarest 2006 avec une série d'articles. Et parmi ces articles, il y en a un à propos des formats, avec ce passage [1] :

Imaginez que les plans du viaduc de Millau soient dans un format de fichier lisible par un seul logiciel et que ce logiciel vient à disparaître d'ici 10 ans (très probable dans le domaine de l'informatique) comment feront les réparateurs du viaduc lorsqu'il faudra faire appel aux plans initiaux pour concevoir des réparations ?

Cette question est claire et pertinente : comment archiver de tels plans s'ils sont au format numérique ? L'article comporte un lien vers le site du viaduc de Millau [2]. En se rendant sur ce site, on trouve les « Chiffres clés » de la page Les chiffres de tous les records [3]. Et on lit tout en bas de la page les 2 lignes suivantes :

Durée de la concession : 78 ans - 3 ans de construction et 75 ans d'exploitation

Garantie de l'ouvrage : 120 ans

78 ans... 120 ans... ce sont des durées proches de l'éternité aux yeux de l'informatique... Et donc seconde question : dans plus de 70 ans ou dans plus d'un siècle, comment faire pour consulter les plans de cet ouvrage d'art ? quel est le format des plans en question et des informations ?

  • format électronique : comment lire ces données dans autant de temps ? car les matériels et les logiciels vont évoluer... des formats ouverts, certes, mais la gestion des informations sera capitale ;
  • les 2 formats : une version papier (en plusieurs exemplaires) conservée dans des conditions spécifiques et une version numérique, en plusieurs exemplaires aussi ?

Dans cet exemple concret du viaduc de Millau, on ne peut pas se poser la question de savoir s'il est pertinent de conserver les informations techniques : la conservation est obligatoire. Cela renvoie à la problématique de l'archivage électronique et du patrimoine numérique : les 5 questions à se poser sur les formats ne sont pas à oublier.

Sources et liens :
Et sur Formats-Ouverts.org :

Quand le nouveau site Web paraît...

Mais que sont les anciennes pages devenues ?

Annonce sur le site gouvernemental Internet.gouv.fr [1]:

Le site de l’Education nationale fait peau neuve La nouvelle version du site de l’Education nationale est en ligne depuis le 1er septembre 2006. Ergonomie, attractivité : plus qu’une évolution graphique, le site a bénéficié d’une véritable refonte. [2]

Se pose alors la question de la mémoire, du patrimoine et de l'archivage : que sont les anciennes pages devenues ?

Certes, le contenu précédent peut être encore en ligne, mais comme l'indique l'article, il y a une autre présentation graphique. Comment alors consulter l'ancienne version du site, au titre par exemple d'études sur l'histoire et l'évolution des sites Web ? Pour ce qui est des adresses de pages précises (les URL), on suppose qu'il n'y a pas de modification et que la pérennité des références existantes est bien effective.

Certes, le format HTML des pages Web est un format ouvertl'interopérabilité est la plus présente, et l'archivage ne pose pour ce point pas trop de problème. Mais les pages Web ont un format de présentation qui compte aussi : dans le monde du format papier, il y a les différentes éditions des documents qui permettent de se pencher sur leur évolution, à condition qu'elles soient conservées, ce qui est normalement le cas.

Alors pour les sites Web, comment procéder :

  • est-ce sur le site Web en question que les anciennes versions seront disponibles ? L'exemple du site des archives du site du Premier Ministre est à ce titre à signaler [3] : « Le site www.archives.premier-ministre.gouv.fr, permettant l'accès aux versions successives du site du Premier ministre, constitue une véritable base de données de l'activité gouvernementale. » Les versions depuis 1996 sont disponibles.
  • l'ancienne version sera-t-elle sur un site spécial dédié à l'archivage ? Site national, site indépendant ?
  • il n'y a plus rien : les informations ne sont plus disponibles, perdues, comme pour le site des Universités d'été de la communication. Mais faut-il tout conserver (le projet existe) au nom du numérique en apparence plus facile à archiver ? « Un bon archiviste est un bon destructeur » peut-on apprendre...

Cet exemple et les questions qu'il soulève concerne bien sûr tous les sites Web, publics, associatifs, privés voire personnels : c'est la question de la mémoire du Web et du patrimoine produit par les différentes structures.

Sous l'angle des formats, on peut aussi relever 4 points quant à cette nouvelle version du site de l'éducation nationale :

  • point positif : plusieurs flux RSS à un format ouvert XML, « Tous les fichiers R.S.S. doivent être conformes à la spécification X.M.L. 1.0, publiée sur le site Web du World Wide Web Consortium (W.3.C) » [4]
  • point positif : la politique de lien hypertexte, « Le site www.education.gouv.fr autorise, sans autorisation préalable, la mise en place de liens hypertextes pointant vers ses pages », sans lien profond avec imbrication et avec mention de la source [5]
  • point positif : l'annonce d'un effort pour l'accessibilité du site, « Les pages sont mises progressivement en conformité avec les recommandations du référentiel commun des critères d'accessibilité des services Internet de l'administration française pour respecter la loi n°2005-102 du 11 février 2005 pour l'égalité des droits et des chances, la participation et la citoyenneté des personnes handicapées. » [6]
  • pont négatif : le non-respect du format ouvert XHTML : les pages sont déclarées en XHTML 1.0 Strict, mais non valides selon l'outil en ligne Validator du W3C [7]

Le travail réalisé est à souligner et le site saura sans doute encore s'améliorer, souhaitons même avec les archives des versions précédentes.

Sources et liens :
Et sur Formats-Ouverts.org :