Comment les formats ouverts sont utilisés sur le site Web tceurope.free.fr

Vous voudriez savoir si des mots (comme interopérabilité, formats,...) figurent dans le traité européen, combien de fois et où ? Deux sites Web peuvent répondre précisément (mais pas le document officiel en PDF). Et cela est possible grâce aux formats ouverts. Mais comment font-ils exactement ? Voici les détails techniques donnés par Olivier Faurax, auteur du site tceurope.free.fr.

  • Récupération du PDF : TCE.pdf ;
  • Commande : pdftohtml -xml TCE.pdf TCE.xml Le fichier XML produit n'est pas très utilisable (c'est un ensemble de <line>...</line> avec des paramètres pour les polices). C'est ce que Google utilise pour faire des versions HTML des documents PDF ;
  • Transformation XSL (XML vers XML) pour avoir des balises plus compréhensibles (<titre>, <soustitre>, <p>, ...) ;
  • Utilisation d'un programme en Perl pour transformer le balisage : <article>I-3</article> <soustitre>...</soustitre> <p>...</p> <p>...</p> est transformé en <article partie="I" num="3" soustitre="..."> <p>...</p> <p>...</p> </article>.

Le programme en Perl modifie aussi des problèmes isolés, comme les titres sur plusieurs lignes (on se rend compte que le PDF est bien pour un document final, mais c'est peu réutilisable).

Un fichier PHP manipule le fichier XML avec des expressions XPath (module domxml en PHP4). Donc pas d'utilisation d'une base de donnée (ce n'est pas optimal, mais c'est plus simple).

Le texte utilise des balises complètement arbitraires (<titre>, <article>, <p>, ...) sans DTD, c'est donc du faux XML. Néanmoins la DTD peut être facilement faite, puisque les balises sont explicites.

Le travail, commencé fin mars (sur temps libre) a été mené en un mois. Le plus dur a été de convertir le PDF en XML utilisable (XSL + Perl). La page Web a été la plus simple à faire.

Toutes les technologies et les formats cités ci-dessus sont ouverts.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]