Comment numériser des archives de presse ?

Google l'a annoncé sans trop de détails, la BnF le fait, tout en s'en inquiétant. La Bibliothèque nationale de France (BnF) a annoncé le 16 février qu'elle lance un programme de cinq ans (2004-2009) de numérisation de la presse quotidienne française du dix-neuvième siècle et de la première moitié du vingtième siècle.

Objectif : d'ici à 2009, proposer 4 titres nationaux (Le Figaro, L'Humanité, Le Temps, La Croix) et 18 titres régionaux en version numérisée et consultable en ligne, soit 2,1 millions de pages.

Et les formats ? Le dossier de presse en parlent en détails :

  • Tout d'abord du format physique du support, avec les problèmes de la conservation du papier (problèmes des manipulations, de l'acidité, de température, d'humidité, de poussière) ;
  • Ensuite du format des images micrographiques des journaux, support qui était utilisé depuis la fin des années cinquante : là aussi problèmes de détérioration du support suite aux manipulations, problèmes de duplication et avenir incertain de la photo argentique (à la base de la migrographie) ;
  • Enfin, le format numérique retenu : la BnF a choisi la numérisation en mode « image » à partir des documents originaux. Avec des techniques complémentaires de reconnaissance optique de caractères en vue des recherches plein texte au sein des documents numérisés. Le Sénat va aider financièrement pour ce point particulier.

Ces images numériques des journaux seront consultables simultanément par de nombreuses personnes, sans dégradation du support par manipulation ni perte lors des duplications. Bien sûr, cela n'enlève en rien au coût du stockage de ces données numériques ni au suivi des supports informatiques. Le dossier de presse ne le précise pas, mais il serait logique que le format des images numériques soit à un format ouvert.

Sources et liens :