Pour les formats ouverts !

Aller au contenu | Aller au menu | Aller à la recherche

Le site Formats-Ouverts.org, (FOo), traite des formats, protocoles et standards ouverts, dans différents domaines (comme l'interopérabilité, l'archivage), depuis le 1er juillet 2004 (plus de 1500 jours) - Les formats se rencontrent presque partout - Il y a actuellement 1650 articles en ligne, dont 18 pour le mois d'août et les notules - Les 1000 articles : le communiqué de presse (inédit et exclusif) - Les statistiques mensuelles du site - Attention : vote électronique - Les conférences - Les 3 ans et demi ! - Le 1600e article - Un index du site - Où en est le patrimoine numérique ?


Notules express :


2008, les 10 ans de XMLXML10, les 10 ans de XML en 2008


Et voici les coulisses techniques du traité, cas 2

Comment les formats ouverts sont utilisés sur le site Web noriaweb.free.fr

Après les coulisses du site tceurope.free.fr utilisant les formats ouverts, voici les coulisses du site Noriaweb.free.fr, le second site indiqué pour lire plus facilement le traité de constitution. Avec les informations données par son auteur, jcm.

Noriaweb est basé sur PHP (avec un script écrit spécialement) et MySQL. Le texte du traité a une structure particulière : titres, sous-titres, correctement hiérarchisés et articles numérotés à la suite (et non une numérotation reprenant à 1 pour chaque chapitre, par exemple).

L'idée était de réaliser des fonctions de recherche très rapides, au moyen d'un script aussi léger que possible. D'où l'idée d'exploiter au maximum la structure du texte afin de limiter les opérations que devrait effectuer le script.

Cela a conduit à structurer la base de données d'une certaine manière, et à rédiger un script PHP. Le texte a été « découpé » en ses différents niveaux hiérarchiques. Chaque niveau, accompagné si nécessaire de marqueurs, a été placé dans un conteneur spécifique de la base de données.

Dans un second temps ces marqueurs ont été remplacés (par exemple ceux qui permettent d'afficher une portion de texte sous forme de liste ordonnée) par les codes XHTML de mise en page : en effet pourquoi utiliser un temps, certes faible, pour remplacer ces marqueurs par des expressions indispensables à la mise en page : autant utiliser ces expressions comme marqueurs (quand cela s'avère nécessaire) et les mentionner directement en base de donnée, ce qui ne nécessite plus aucune intervention du script au niveau du code de mise en page.

Les recherches sont effectuées par des expressions régulières (regexp) et non par les fonctions de recherche "plain text" (recherche en texte intégral) disponibles sur certaines versions de MySQL seulement. Pour la programmation, le logiciel Arachnophilia a été utilisé.

Moyennant quelques adaptations, le script serait utilisable pour n'importe quel texte structuré, comme le code des impôts par exemple. Ce dernier semblerait fait pour avoir le minimum de chances d'y trouver quelque-chose.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]

Et voici les coulisses techniques du traité, cas 1

Comment les formats ouverts sont utilisés sur le site Web tceurope.free.fr

Vous voudriez savoir si des mots (comme interopérabilité, formats,...) figurent dans le traité européen, combien de fois et où ? Deux sites Web peuvent répondre précisément (mais pas le document officiel en PDF). Et cela est possible grâce aux formats ouverts. Mais comment font-ils exactement ? Voici les détails techniques donnés par Olivier Faurax, auteur du site tceurope.free.fr.

  • Récupération du PDF : TCE.pdf ;
  • Commande : pdftohtml -xml TCE.pdf TCE.xml Le fichier XML produit n'est pas très utilisable (c'est un ensemble de <line>...</line> avec des paramètres pour les polices). C'est ce que Google utilise pour faire des versions HTML des documents PDF ;
  • Transformation XSL (XML vers XML) pour avoir des balises plus compréhensibles (<titre>, <soustitre>, <p>, ...) ;
  • Utilisation d'un programme en Perl pour transformer le balisage : <article>I-3</article> <soustitre>...</soustitre> <p>...</p> <p>...</p> est transformé en <article partie="I" num="3" soustitre="..."> <p>...</p> <p>...</p> </article>.

Le programme en Perl modifie aussi des problèmes isolés, comme les titres sur plusieurs lignes (on se rend compte que le PDF est bien pour un document final, mais c'est peu réutilisable).

Un fichier PHP manipule le fichier XML avec des expressions XPath (module domxml en PHP4). Donc pas d'utilisation d'une base de donnée (ce n'est pas optimal, mais c'est plus simple).

Le texte utilise des balises complètement arbitraires (<titre>, <article>, <p>, ...) sans DTD, c'est donc du faux XML. Néanmoins la DTD peut être facilement faite, puisque les balises sont explicites.

Le travail, commencé fin mars (sur temps libre) a été mené en un mois. Le plus dur a été de convertir le PDF en XML utilisable (XSL + Perl). La page Web a été la plus simple à faire.

Toutes les technologies et les formats cités ci-dessus sont ouverts.

Sources et liens :

[Rappel : En cas de vote favorable sur les brevets logiciels au Parlement européen, des fonctionnalités triviales (comme utiliser une base de données pour un site Web, ou la barre de progression) qui sont déjà brevetées ailleurs, seront valables en Europe si elles ont été acceptées par l'OEB. Avec le risque d'en voir d'autres brevetées. Cela pourra signifier des droits à payer pour les utiliser. Ce qui ne sera pas possible pour ce site, ni pour beaucoup d'autres, y compris ceux de sociétés.]