Passez du PDF au HTML (ou au texte brut), via le Web ou le courriel
Un fichier PDF est disponible sur un site Web (ou sur votre ordinateur). Et vous souhaitez le lire dans votre navigateur, sans faire appel à un lecteur PDF (ou en avoir une version en texte brut).
Le site de la société Adobe, auteur du PDF, propose ces deux conversions, de deux façons différentes : ce sont les pages "Online conversion tools for Adobe PDF documents" (Outils de conversion en ligne de documents Adobe PDF).
Ainsi, il est possible :
- d'indiquer l'adresse du fichier PDF d'un site Web et d'obtenir sa version HTML affichée dans votre navigateur (ou la version en texte brut) ;
- d'envoyer par courriel des fichiers PDF qui sont alors renvoyés convertis en HTML ou en texte brut.
Cela fonctionne très bien avec les PDF contenant du texte en anglais, quelques petits soucis pour certaines lettres accentuées en français ou allemand (pas de conversions d'un PDF en langues non-latines).
Notez que le site Google propose aussi une conversion en HTML pour les fichiers PDF qu'il trouve suite à une recherche (le lien "Version HTML").
L'explication est que le "fonctionnement" du PDF et du HTML (comment faire des titres, des paragraphes, des numéros de page,...) est connu, publié, documenté. Il est donc possible de convertir le code indiquant "titre" en PDF, en "titre" en HTML. Le format est ouvert ; au contraire des formats fermés, dont entre autres ceux du quatuor WE3P (Word Excel PowerPoint Publisher), en plus des dangers des informations invisibles qu'ils contiennent.
Sources et liens :
- La page d'accueil des outils de conversion en ligne, http://www.adobe.com/products/acrobat/access_onlinetools.html
- De PDF en ligne à HTML, en français, http://www.adobe.com/products/acrobat/access_francais_2.html
- Le site Google en français, http://www.google.fr
3 réactions
1 De Sébastien - 15/08/2004, 22:21
Il existe l'outil PDFTOHTML pdftohtml.sourceforge.net... qui permet de faire la transformation d'un fichier, ou un ensemble de fichier au format HTML. Il dispose de plus d'une option permettant de génerer un fichier au format XML.
Cet outil est basé sur Xpdf, visualisateur de fichier Pdf libre sur X11 : www.foolabs.com/xpdf/
2 De Antoine - 18/08/2004, 13:39
"Il est donc possible de convertir le code indiquant "titre" en PDF, en "titre" en HTML."
Faudrait se renseigner un peu car il n'y a aucun code indiquant "titre" ou "paragraphe" en PDF. Le PDF est un format très bas niveau qui ne convoie que des informations de graphie (afficher tel caractère à telle position en points sur la feuille). Il ne contient aucune sémantique, et même la séparation des mots est problématique. D'expérience, je peux dire qu'extraire du texte depuis un document Word est beaucoup plus simple que depuis un document PDF : le format Word est fermé mais avec un peu d'intuition on arrive facilement à détecter les zones de texte dans le binaire ; le format PDF est ouvert mais monstrueusement compliqué.
Si la société Adobe met ces utilitaires en ligne, c'est bien parce qu'il sont très compliqués à réaliser correctement.
Amicalement
Antoine.
3 De Thierry Stoehr - 18/08/2004, 14:20