L'Association Francophone des Utilisateurs de logiciels libres (AFUL)

Pour les formats ouverts !


Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des formats, protocoles et standards ouverts, dans différents domaines (comme l'interopérabilité, l'archivage), depuis le 1er juillet 2004 (plus de 1800 jours) - Les formats se rencontrent presque partout - Il y a actuellement 1984 articles en ligne, dont 3 pour le mois de juillet - Les 1000 articles : le communiqué de presse (inédit et exclusif) - Les statistiques mensuelles du site - Attention : vote électronique - Les conférences - Hommage à Randy Pausch - Le 1900e article - Un index du site - Où en est le patrimoine numérique ? - Les 5 ans du site !



Manipuler du Docbook

Un exemple concret

Les formats ouverts sont très puissants. Docbook en est un exemple, avec son format de type XML ouvert, sans piège et avec de nombreuses possibilités.

Un exemple concret ? Stéphane Bortzmeyer en développe un à propos de la manière de procéder pour inclure des RFC, ces documents qui ont passé les 40 ans [1]. C'est technique, mais cela met bien en avant toute la puissance de l'ouverture.

Sources et liens :
Et sur Formats-Ouverts.org le 24 mai :

Le DSSSL pour le SGML

L'ancêtre du XSLT pour le XML

Vous venez de lire 4 acronymes sigles « gros mots » dans le titre et le sous-titre ? Rassurez-vous, il s'agit de formats qui peuvent s'expliquer en 2 points :

  • on a un document (texte, avec ou sans images, graphiques,...) qui est écrit avec un code (celui du format SGML ou XML) ;
  • on procède à la transformation (avec DSSSL ou XSLT) dudit document pour obtenir un autre format (HTML pour le Web, PDF pour l'impression, LaTeX,...).

HTML, PDF et LaTeX sont des formats ouverts. Pour le XML et le XSLT, il s'agit d'avoir toutes les informations techniques pour établir s'il s'agit d'un format ouvert ou pas. Quant au SGML et au DSSSL, comme il n'y eut pas de diffusion totalement libre de ces normes ISO (même si elles sont tout de même disponibles), il ne s'agit pas totalement d'un format ouvert (mais elles sont tout de même très ouvertes... ainsi que puissantes et complexes).

Et pour avoir plus de détails techniques, l'excellent article de Stéphane Bortzmeyer vous renseignera bien mieux et bien plus :

Et sur Formats-Ouverts.org le 4 décembre :

Jour de chance : le format texte des coulisses

Le format texte des coulisses : le cas des courriels et des pages Web

C'est le troisième vendredi 13 sur Formats-Ouverts.org, avec « la chance » associée parfois à ce jour :

Alors sur quoi peut porter « la chance » du vendredi 13 janvier 2006 ? Sur les coulisses des courriels et des pages Web qui sont au format texte :

  • pour chaque courriel reçu, les informations contenues sont plus nombreuses que celles affichées et il est possible de voir ces détails qui sont au format texte. Ainsi on peut lire par exemple le nom du logiciel de messagerie utilisé par l'expéditeur (avec parfois son système d'exploitation), les machines et les logiciels utilisés pour acheminer le courriel ou l'encodage. Ces informations sont dans l'en-tête du message, visible par exemple avec la combinaison de touches Crtl+U dans Thunderbird (Pomme+U avec Mac OS X).
  • les pages Web ont des coulisses qui sont au format ouvert HTML (ou XHTML) : elles sont disponibles en demandant le source de la page. On peut alors y trouver des informations sur les mots-clés, le logiciel utilisé pour les créer ou les adresses précises des images de la page. Vouloir cacher le HTML ? Certains le font...

Le format texte des coulisses des courriels ou des sites Web sont encore ouverts intrinsèquement (voire pour certains points ceux des coulisses des fichiers bureautiques) : mais peut-être un jour sera-t-il interdit de l'indiquer comme dans ces lignes. Pour l'instant, cela est de l'humour, mais qui sait...

Sources et liens :

Et voici les coulisses techniques du traité, cas 2

Comment les formats ouverts sont utilisés sur le site Web noriaweb.free.fr

Après les coulisses du site tceurope.free.fr utilisant les formats ouverts, voici les coulisses du site Noriaweb.free.fr, le second site indiqué pour lire plus facilement le traité de constitution. Avec les informations données par son auteur, jcm.

Noriaweb est basé sur PHP (avec un script écrit spécialement) et MySQL. Le texte du traité a une structure particulière : titres, sous-titres, correctement hiérarchisés et articles numérotés à la suite (et non une numérotation reprenant à 1 pour chaque chapitre, par exemple).

L'idée était de réaliser des fonctions de recherche très rapides, au moyen d'un script aussi léger que possible. D'où l'idée d'exploiter au maximum la structure du texte afin de limiter les opérations que devrait effectuer le script.

Cela a conduit à structurer la base de données d'une certaine manière, et à rédiger un script PHP. Le texte a été « découpé » en ses différents niveaux hiérarchiques. Chaque niveau, accompagné si nécessaire de marqueurs, a été placé dans un conteneur spécifique de la base de données.

Dans un second temps ces marqueurs ont été remplacés (par exemple ceux qui permettent d'afficher une portion de texte sous forme de liste ordonnée) par les codes XHTML de mise en page : en effet pourquoi utiliser un temps, certes faible, pour remplacer ces marqueurs par des expressions indispensables à la mise en page : autant utiliser ces expressions comme marqueurs (quand cela s'avère nécessaire) et les mentionner directement en base de donnée, ce qui ne nécessite plus aucune intervention du script au niveau du code de mise en page.

Les recherches sont effectuées par des expressions régulières (regexp) et non par les fonctions de recherche "plain text" (recherche en texte intégral) disponibles sur certaines versions de MySQL seulement. Pour la programmation, le logiciel Arachnophilia a été utilisé.

Moyennant quelques adaptations, le script serait utilisable pour n'importe quel texte structuré, comme le code des impôts par exemple. Ce dernier semblerait fait pour avoir le minimum de chances d'y trouver quelque-chose.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

Et voici les coulisses techniques du traité, cas 1

Comment les formats ouverts sont utilisés sur le site Web tceurope.free.fr

Vous voudriez savoir si des mots (comme interopérabilité, formats,...) figurent dans le traité européen, combien de fois et où ? Deux sites Web peuvent répondre précisément (mais pas le document officiel en PDF). Et cela est possible grâce aux formats ouverts. Mais comment font-ils exactement ? Voici les détails techniques donnés par Olivier Faurax, auteur du site tceurope.free.fr.

  • Récupération du PDF : TCE.pdf ;
  • Commande : pdftohtml -xml TCE.pdf TCE.xml Le fichier XML produit n'est pas très utilisable (c'est un ensemble de <line>...</line> avec des paramètres pour les polices). C'est ce que Google utilise pour faire des versions HTML des documents PDF ;
  • Transformation XSL (XML vers XML) pour avoir des balises plus compréhensibles (<titre>, <soustitre>, <p>, ...) ;
  • Utilisation d'un programme en Perl pour transformer le balisage : <article>I-3</article> <soustitre>...</soustitre> <p>...</p> <p>...</p> est transformé en <article partie="I" num="3" soustitre="..."> <p>...</p> <p>...</p> </article>.

Le programme en Perl modifie aussi des problèmes isolés, comme les titres sur plusieurs lignes (on se rend compte que le PDF est bien pour un document final, mais c'est peu réutilisable).

Un fichier PHP manipule le fichier XML avec des expressions XPath (module domxml en PHP4). Donc pas d'utilisation d'une base de donnée (ce n'est pas optimal, mais c'est plus simple).

Le texte utilise des balises complètement arbitraires (<titre>, <article>, <p>, ...) sans DTD, c'est donc du faux XML. Néanmoins la DTD peut être facilement faite, puisque les balises sont explicites.

Le travail, commencé fin mars (sur temps libre) a été mené en un mois. Le plus dur a été de convertir le PDF en XML utilisable (XSL + Perl). La page Web a été la plus simple à faire.

Toutes les technologies et les formats cités ci-dessus sont ouverts.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

La bibliothèque oSIP : interview du créateur

Qu'est-ce qu'oSIP, comment ça marche, comment cela est-il développé, à quoi cela sert-il ?

Le réseau Internet repose sur l'utilisation de standards ouverts, comme les protocoles ouverts TCP/IP, HTTP, SMTP, FTP ou comme les formats ouverts HTML, XHTML et CSS, et prochainement XForms, SVG et autres formats basés sur du vrai XML. Le principe d'interopérabilité y est en action.

Le protocole ouvert SIP, Session Initiation Protocol, permet d’établir toutes sortes de communications multimédia (téléphonie, messagerie instantanée, visio-conférence,...). SIP a donc des applications très large (Jabber, un autre protocole ouvert, étant plus centré sur la messagerie instantanée).

Pour utiliser SIP, la bibliothèque ouverte oSIP est disponible, développée sous licence LGPL par Aymeric Moizart. Ce dernier a été interviewé en novembre 2004 pour le site Libroscope. L'interview est très intéressante et a été reprise début mai 2005 par le site Framasoft : toute la première partie traite clairement des aspects techniques ; Aymeric Moizart évoque aussi sa vision du développement et l'apport d'un tel travail.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

Utilisez donc mes API ouvertes

Google et Yahoo! fournissent des API

Comment faire pour qu'un site Web avec ses services soit utilisé ? En fournissant aux programmeurs les briques qui permettent d'utiliser les services du site afin qu'ils les utilisent dans leurs programmes. Pour les sites Web (ou pour les programmes), ces briques s'appelent les API (Application Programming Interfaces) : elles permettent d'employer les fonctions du site (ou du programme).

Plus les API seront disponibles et nombreuses, plus le site (ou le programme) pourra être employé par les développeurs et aussi in fine par les utilisateurs. Fournir les API revient à proposer à un format ouvert les moyens de tirer partie d'un moteur (le logiciel d'un site Web ou celui de sa machine).

C'est exactement ce que Yahoo! et Google ont fait en ce mois de mars : chacun propose un site Web dédié avec ses API, ses données techniques, ses outils, ses listes de discussions pour que leurs sites respectifs soient encore plus utilisés par les applications nouvellement créées. Comme avec l'utilisation des formats ouverts, l'ouverture des API permet une large diffusion et incite à adoption, même si ici ces API visent à renforcer la position de chacun des deux protagonistes.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

Des tag pour la musique numérique

Un format ouvert d'informations

Vous écoutez de la musique à un format numérique sur un lecteur (baladeur, auto-radio, chaine haute-fidélité, ordinateur,...). Sur certains appareils, il est possible d'avoir aussi des informations qui s'affichent à propos du morceau joué : titre, artiste,... Mais comment cela se fait-il ? Le journal 20Minutes consacrait un article au sujet dans son numéro du 22 novembre, « Godfather, pour bien gérer son audiothèque », signé Y. Pigenet.

En fait, ces informations complètent les fichiers musicaux en donnant des renseignements dessus, et elles sont parfois à un format ouvert. Cela signifie que le codage de ces informations (comme le titre, le nom de l'album, la catégorie musicale,...) est connu : il utilise des balises (tag en anglais), comme celles du vrai HTML ou du vrai XML. Ainsi <artist>Beatles</artist> peut être une manière de coder qu'il s'agit des Beatles.

En conséquence le contenu de ce format est aussi modifiable avec un logiciel aproprié, appelé audio tag editor (éditeur de balises audio). La plupart des formats de musique numérique, le Ogg Vorbis ouvert ou les fermés comme AAC, WMA, ATRAC ou MP3, proposent ces informations qui sont donc pour certains modifiables (notamment le Ogg Vorbis ou le MP3) pour ensuite encore mieux trier, classer et gérer son audiothèque numérique. Encore un avantage des formats ouverts.

Sources et liens :

Une moulinette pour passer de formats fermés à ouverts

MS Office, Python, PDF et GPL

Imaginez les situations suivantes :

  1. les nombreuses personnes d'une structure reçoivent de leurs interlocuteurs des fichiers joints aux formats fermés Word, Excel ou PowerPoint et souhaitent les visualiser, sans pour autant disposer du logiciel dans sa dernière version sur chaque poste ;
  2. une structure ne souhaite mettre sur son intranet et sur son site Web que des documents à des formats lisibles par tous (en plus des pages en HTML).

La solution : dans les deux cas, utiliser un format ouvert qui sera lisible sans contrainte de posséder un logiciel particulier. Dans notre cas, la solution s'appelle Linbox Converter : elle utilise le format PDF qui a été retenu afin de conserver la mise en page exacte des documents de départ (texte, tableur, présentation de Microsoft Office). Le principe de la conversion, déjà citée, repose sur un serveur. Quelques détails :

  • elle génère du PDF, mais aussi du PostScript, HTML, texte, RTF (des formats ouverts) ;
  • c'est une solution en logiciel libre en licence GPL ;
  • elle a recours au principe clients (nombreux ou pas) / serveur (un seul, avec les logiciels) ;
  • elle utilise Python, Ghostscript.

La solution est disponible aussi depuis le site de l'ADULLACT. Elle permet donc de passer de formats fermés à des formats ouverts, en utilisant le meilleur convertisseur : le logiciel auteur lui même. Et comme le dit la description :

En bref le Linbox Converter favorise l'interopérabilité.

Sources et liens :

Vous encodez dans quel format ?

Le format des caractères...

Expérience qui peut arriver : vous recevez un courriel, mais sa lecture est un peu surprenante... En effet vous avez des signes étranges à la place des é, à et autres ç... Cela peut aussi survenir avec le texte de pages Web.

Explication : il s'agit d'un problème de format de codage des caractères. En effet, l'encodage utilisé, le jeu de caractères (ce sont les termes techniques) peut varier entre ce que le document demande et ce que votre machine restitue : on a alors notamment (et c'est le plus visible) les lettres accentuées qui ne sont plus correctement affichées.

Ces jeux de caractères, avec des noms comme ISO-Latin-1, UTF-8 ou ISO-8859-15, sont des formats ouverts : on les connait, on peut les utiliser. En fait, on doit les utiliser pour indiquer à quels caractères on fait référence.

Un très bon article, "Introduction aux jeux de caractères", explique tout cela, notamment pour le Web ; écrit par Steve Frécinaux, il est sur l'excellent site OpenWeb.

Sources et liens :

Un format ouvert de carte de visite

Vive le vCard !

La suite logicielle Netscape est sortie en version 7.2 à la mi-août. Avec le célèbre navigateur Netscape et son client de messagerie. Parmi les nouveautés, on trouve entre autres :

"vCard support in Netscape Mail." (Soit : prise en compte du format vCard dans le logiciel de courriers électroniques)

vCard est un format ouvert de carte de visite, dont les caractéristiques sont publiées et librement utilisables (ce qui est le cas déjà d'autres logiciels comme la messageire de Mozilla ou Thunderbird). Le fichier au format vCard est en pièce jointe des courriels (en .vcf, pour vCard file). Il contient à un format ouvert des informations du type nom, prénom, courriel, téléphone,...

De gadget au début de son apparition (lire d'ailleurs la définition de JargonF...), la normalisation en un format ouvert permet aux logiciels de ne pas avoir à réinventer un format et d'intégrer ainsi plus efficacement (par exemple au carnet d'adresses) les informations utilisant ce format ouvert.

Sources et liens :

Conversions entre formats

Passez du PDF au HTML (ou au texte brut), via le Web ou le courriel

Un fichier PDF est disponible sur un site Web (ou sur votre ordinateur). Et vous souhaitez le lire dans votre navigateur, sans faire appel à un lecteur PDF (ou en avoir une version en texte brut).

Le site de la société Adobe, auteur du PDF, propose ces deux conversions, de deux façons différentes : ce sont les pages "Online conversion tools for Adobe PDF documents" (Outils de conversion en ligne de documents Adobe PDF).

Ainsi, il est possible :

  • d'indiquer l'adresse du fichier PDF d'un site Web et d'obtenir sa version HTML affichée dans votre navigateur (ou la version en texte brut) ;
  • d'envoyer par courriel des fichiers PDF qui sont alors renvoyés convertis en HTML ou en texte brut.

Cela fonctionne très bien avec les PDF contenant du texte en anglais, quelques petits soucis pour certaines lettres accentuées en français ou allemand (pas de conversions d'un PDF en langues non-latines).

Notez que le site Google propose aussi une conversion en HTML pour les fichiers PDF qu'il trouve suite à une recherche (le lien "Version HTML").

L'explication est que le "fonctionnement" du PDF et du HTML (comment faire des titres, des paragraphes, des numéros de page,...) est connu, publié, documenté. Il est donc possible de convertir le code indiquant "titre" en PDF, en "titre" en HTML. Le format est ouvert ; au contraire des formats fermés, dont entre autres ceux du quatuor WE3P (Word Excel PowerPoint Publisher), en plus des dangers des informations invisibles qu'ils contiennent.

Sources et liens :

Jour de chance : découvrez des informations invisibles

Accédez aux coulisses des documents...

Ce qui suit n'est pas lié à un jour de chance : c'est possible en permanence. Et de manière tout à fait légale.

Voici donc la procédure à suivre pour lire des informations invisibles normalement :

  1. Vous recevez des documents sous forme de fichiers, vous en téléchargez, vous en produisez ;
  2. Ces documents sont normalement lisibles avec les logiciels qui les ont produits, voire un de la même famille (traitement de texte, tableur,...) ;
  3. Mais pour avoir la chance de lire bien plus que le contenu que le logiciel adéquat affiche, oubliez ce logiciel ;
  4. En revanche, faites appel à un éditeur de texte (un vrai, complet, puissant : par ordre alphabétique, voir la liste proposée en liens, tous des logiciels libres) ;
  5. Lancez donc en premier l'éditeur de texte de votre choix ;
  6. Puis dans cet éditeur de texte, ouvrez le fichier qui vous intéresse (par exemple les répandus HTML, PDF, ou ceux du quatuor WE3P (Word Excel PowerPoint Publisher) ;
  7. Et alors, vous obtiendrez une suite de caractère incompréhensibles... mais aussi des passages bien plus clairs, avec généralement en début et fin de fichier, des informations qui sont inscrites dans le fichier, mais invisibles lors de la lecture dans le logiciel habituellement utilisé ;
  8. Il se peut que vous lisiez ainsi (cas qui se sont déjà produits) :
  • le modèle de l'imprimante utilisée par l'auteur du fichier...
  • le nom du ou des personnes ayant travaillés sur le fichier...
  • les autres logiciels utilisés avec leur version...
  • voire des passages ayant été supprimés mais toujours présents dans les coulisses que vous consultez avec l'éditeur de texte (ou des données qui n'ont rien à voir enregistrées dedans)...

Si ces informations, qui ne devraient pas y être, vous gênent assez logiquement, c'est en fait que le logiciel qui a servi à produire le fichier a mis ces informations, notamment ceux du quattuor WE3P. C'est un des dangers des logiciels non-libres qui produisent des documents à des formats fermés.

Bien sûr, rien n'interdit de prévenir l'auteur du fichier que celui-ci contenait des informations sans doute non-voulues... et qui proviennent du format de fichier utilisé, un format fermé : il y a des dangers.

Sources et liens :

Des pages sommaires, mais parfaitement lisibles par tous

Ah le format texte brut !

TCP, POP, SMTP, IP,... ces quelques noms de vrais protocoles ouverts ont leur documentation technique en ligne sur le site Web de l'IETF (Internet Engineering Task Force). Librement utilisables, détaillés, disponibles.

Ces pages de documentation, ainsi que d'autres pages du site, ont une caractéristique particulière : le format utilisé. Le .txt qui figure dans l'adresse de la page (pas de .htm ou .html à la fin).

En effet, il n' y a aucun gras ou italique, pas de tailles ni de polices différentes, pas de liens. Du texte, tout simple, avec juste des sauts de ligne, les chiffres et les lettres, et différents symboles utilisés pour faire une "mise en page" (avec par exemples les === et autres ---).

C'est du texte brut, du .txt : ce format ouvert est certes sommaire en terme de mise en page. Mais très utilisé car léger et lisible par tous les traitements de textes, par tous les éditeurs de texte, même par les navigateurs Web et toutes plate-formes confondues. Presque universel (totalement avec un texte sans lettres accentuées ni caractères spéciaux). Les fichiers lisezmoi.txt, readme.txt et autres documentation.txt ou install.txt en sont les preuves.

Et ce format texte brut est celui normalement des courriers électroniques (le HTML est destiné aux pages Web). Donc encore très utilisé. Et à juste titre : un format ouvert lisible par tout le monde. Même s'il a des limites dont nous reparlerons.

Sources et liens :