Pour les formats ouverts !

Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des formats, protocoles et standards ouverts, dans différents domaines (comme l'interopérabilité, l'archivage), depuis le 1er juillet 2004 (plus de 1400 jours) - Les formats se rencontrent presque partout - Il y a actuellement 1598 articles en ligne, dont 30 pour le mois en cours et les notules - Les 1000 articles : le communiqué de presse (inédit et exclusif) - Les statistiques mensuelles du site - Attention : vote électronique - Les conférences - Les 3 ans et demi ! - Le 1500e article - Un index du site - Où en est le patrimoine numérique ? - Bientôt 4 ans, bientôt 1600 articles...


Notules express :


2008, les 10 ans de XMLXML10, les 10 ans de XML en 2008


Un format ouvert de carte de visite

Vive le vCard !

La suite logicielle Netscape est sortie en version 7.2 à la mi-août. Avec le célèbre navigateur Netscape et son client de messagerie. Parmi les nouveautés, on trouve entre autres :

"vCard support in Netscape Mail." (Soit : prise en compte du format vCard dans le logiciel de courriers électroniques)

vCard est un format ouvert de carte de visite, dont les caractéristiques sont publiées et librement utilisables (ce qui est le cas déjà d'autres logiciels comme la messageire de Mozilla ou Thunderbird). Le fichier au format vCard est en pièce jointe des courriels (en .vcf, pour vCard file). Il contient à un format ouvert des informations du type nom, prénom, courriel, téléphone,...

De gadget au début de son apparition (lire d'ailleurs la définition de JargonF...), la normalisation en un format ouvert permet aux logiciels de ne pas avoir à réinventer un format et d'intégrer ainsi plus efficacement (par exemple au carnet d'adresses) les informations utilisant ce format ouvert.

Sources et liens :

Conversions entre formats

Passez du PDF au HTML (ou au texte brut), via le Web ou le courriel

Un fichier PDF est disponible sur un site Web (ou sur votre ordinateur). Et vous souhaitez le lire dans votre navigateur, sans faire appel à un lecteur PDF (ou en avoir une version en texte brut).

Le site de la société Adobe, auteur du PDF, propose ces deux conversions, de deux façons différentes : ce sont les pages "Online conversion tools for Adobe PDF documents" (Outils de conversion en ligne de documents Adobe PDF).

Ainsi, il est possible :

  • d'indiquer l'adresse du fichier PDF d'un site Web et d'obtenir sa version HTML affichée dans votre navigateur (ou la version en texte brut) ;
  • d'envoyer par courriel des fichiers PDF qui sont alors renvoyés convertis en HTML ou en texte brut.

Cela fonctionne très bien avec les PDF contenant du texte en anglais, quelques petits soucis pour certaines lettres accentuées en français ou allemand (pas de conversions d'un PDF en langues non-latines).

Notez que le site Google propose aussi une conversion en HTML pour les fichiers PDF qu'il trouve suite à une recherche (le lien "Version HTML").

L'explication est que le "fonctionnement" du PDF et du HTML (comment faire des titres, des paragraphes, des numéros de page,...) est connu, publié, documenté. Il est donc possible de convertir le code indiquant "titre" en PDF, en "titre" en HTML. Le format est ouvert ; au contraire des formats fermés, dont entre autres ceux du quatuor WE3P (Word Excel PowerPoint Publisher), en plus des dangers des informations invisibles qu'ils contiennent.

Sources et liens :

Jour de chance : découvrez des informations invisibles

Accédez aux coulisses des documents...

Ce qui suit n'est pas lié à un jour de chance : c'est possible en permanence. Et de manière tout à fait légale.

Voici donc la procédure à suivre pour lire des informations invisibles normalement :

  1. Vous recevez des documents sous forme de fichiers, vous en téléchargez, vous en produisez ;
  2. Ces documents sont normalement lisibles avec les logiciels qui les ont produits, voire un de la même famille (traitement de texte, tableur,...) ;
  3. Mais pour avoir la chance de lire bien plus que le contenu que le logiciel adéquat affiche, oubliez ce logiciel ;
  4. En revanche, faites appel à un éditeur de texte (un vrai, complet, puissant : par ordre alphabétique, voir la liste proposée en liens, tous des logiciels libres) ;
  5. Lancez donc en premier l'éditeur de texte de votre choix ;
  6. Puis dans cet éditeur de texte, ouvrez le fichier qui vous intéresse (par exemple les répandus HTML, PDF, ou ceux du quatuor WE3P (Word Excel PowerPoint Publisher) ;
  7. Et alors, vous obtiendrez une suite de caractère incompréhensibles... mais aussi des passages bien plus clairs, avec généralement en début et fin de fichier, des informations qui sont inscrites dans le fichier, mais invisibles lors de la lecture dans le logiciel habituellement utilisé ;
  8. Il se peut que vous lisiez ainsi (cas qui se sont déjà produits) :
  • le modèle de l'imprimante utilisée par l'auteur du fichier...
  • le nom du ou des personnes ayant travaillés sur le fichier...
  • les autres logiciels utilisés avec leur version...
  • voire des passages ayant été supprimés mais toujours présents dans les coulisses que vous consultez avec l'éditeur de texte (ou des données qui n'ont rien à voir enregistrées dedans)...

Si ces informations, qui ne devraient pas y être, vous gênent assez logiquement, c'est en fait que le logiciel qui a servi à produire le fichier a mis ces informations, notamment ceux du quattuor WE3P. C'est un des dangers des logiciels non-libres qui produisent des documents à des formats fermés.

Bien sûr, rien n'interdit de prévenir l'auteur du fichier que celui-ci contenait des informations sans doute non-voulues... et qui proviennent du format de fichier utilisé, un format fermé : il y a des dangers.

Sources et liens :

Des pages sommaires, mais parfaitement lisibles par tous

Ah le format texte brut !

TCP, POP, SMTP, IP,... ces quelques noms de vrais protocoles ouverts ont leur documentation technique en ligne sur le site Web de l'IETF (Internet Engineering Task Force). Librement utilisables, détaillés, disponibles.

Ces pages de documentation, ainsi que d'autres pages du site, ont une caractéristique particulière : le format utilisé. Le .txt qui figure dans l'adresse de la page (pas de .htm ou .html à la fin).

En effet, il n' y a aucun gras ou italique, pas de tailles ni de polices différentes, pas de liens. Du texte, tout simple, avec juste des sauts de ligne, les chiffres et les lettres, et différents symboles utilisés pour faire une "mise en page" (avec par exemples les === et autres ---).

C'est du texte brut, du .txt : ce format ouvert est certes sommaire en terme de mise en page. Mais très utilisé car léger et lisible par tous les traitements de textes, par tous les éditeurs de texte, même par les navigateurs Web et toutes plate-formes confondues. Presque universel (totalement avec un texte sans lettres accentuées ni caractères spéciaux). Les fichiers lisezmoi.txt, readme.txt et autres documentation.txt ou install.txt en sont les preuves.

Et ce format texte brut est celui normalement des courriers électroniques (le HTML est destiné aux pages Web). Donc encore très utilisé. Et à juste titre : un format ouvert lisible par tout le monde. Même s'il a des limites dont nous reparlerons.

Sources et liens :