Passez du PDF au HTML (ou au texte brut), via le Web ou le courriel

Un fichier PDF est disponible sur un site Web (ou sur votre ordinateur). Et vous souhaitez le lire dans votre navigateur, sans faire appel à un lecteur PDF (ou en avoir une version en texte brut).

Le site de la société Adobe, auteur du PDF, propose ces deux conversions, de deux façons différentes : ce sont les pages "Online conversion tools for Adobe PDF documents" (Outils de conversion en ligne de documents Adobe PDF).

Ainsi, il est possible :

  • d'indiquer l'adresse du fichier PDF d'un site Web et d'obtenir sa version HTML affichée dans votre navigateur (ou la version en texte brut) ;
  • d'envoyer par courriel des fichiers PDF qui sont alors renvoyés convertis en HTML ou en texte brut.

Cela fonctionne très bien avec les PDF contenant du texte en anglais, quelques petits soucis pour certaines lettres accentuées en français ou allemand (pas de conversions d'un PDF en langues non-latines).

Notez que le site Google propose aussi une conversion en HTML pour les fichiers PDF qu'il trouve suite à une recherche (le lien "Version HTML").

L'explication est que le "fonctionnement" du PDF et du HTML (comment faire des titres, des paragraphes, des numéros de page,...) est connu, publié, documenté. Il est donc possible de convertir le code indiquant "titre" en PDF, en "titre" en HTML. Le format est ouvert ; au contraire des formats fermés, dont entre autres ceux du quatuor WE3P (Word Excel PowerPoint Publisher), en plus des dangers des informations invisibles qu'ils contiennent.

Sources et liens :