Palmarès des Formats (PdF) recensés par Google sur Internet

En juillet, il y eut une tentative, puis successivement les PdF début août, septembre et octobre. Voici donc en ce début novembre une nouvelle photographie des formats présents sur Internet et recensés par le moteur de recherche Google en utilisant la recherche avancée (la méthode reste la même : demander une page sans un mot inexistant et dans un format particulier), avec des formats ouverts ou pas, et sans distinction de langue :

  • Tous formats : environ 9 680 000 000
  • HTML : environ 2 180 000 000, soit 22,52%
  • HTM : environ 758 000 000, soit 7,83%
  • SHTML : environ 241 000 000, soit 2,48% (nouveau)
  • PDF : environ 198 000 000, soit 2,04%
  • Flash (swf) : environ 44 800 000 soit 0,46%
  • doc : environ 29 000 000, soit 0,29%
  • xml : environ 24 800 000, soit 0,25%
  • txt : environ 18 600 000, soit 0,19%
  • ppt : environ 9 350 000, soit 0,09%
  • PS : environ 7 110 000, soit 0,07%
  • xls : environ 6 630 000, soit 0,07%
  • rtf : environ 3 610 000, soit 0,03%
  • XHTML : environ 2 290 000, soit 0,02% (nouveau)
  • php : environ 257 000 000, soit 2,65%
  • asp : environ 394 000 000, soit 4,07%
  • rss : environ 1 800 000, soit 0,02 %
  • tex (TeX et LaTeX) : environ 1 920 000, soit 0,02%
  • rdf : environ 2 010 000, soit 0,02%
  • jpg : environ 5 420 000, soit 0,05%
  • jpeg : environ 510 000, soit 0,005%
  • png : environ 1 310 000, soit 0,01%
  • gif : environ 3 470 000, soit 0,03%
  • Tous les résultats ci-dessous représentent moins de 0,01% (sauf les formats deb, exe et cfm)
  • SVG : environ 275 000 (nouveau)
  • sxw (traitement de texte d'OpenOffice.org avant la version 2.0) : environ 166 000
  • exe : environ 2 590 000, soit 0,03%
  • deb : environ 3 120 000, soit 0,03%
  • rpm : environ 30 400
  • cfm : environ 156 000 000, soit 1,61% (nouveau)
  • zip : environ 134 000 (nouveau)
  • rar : environ 21 800 (nouveau)
  • odt : environ 921 (nouveau)
  • ods : environ 289 (nouveau)
  • odp : environ 542 (nouveau)
  • Mesure effectuée le vendredi 4 novembre 2005, entre 19h30 et 19h55, heure de Paris. Ces chiffres ne sont que des indications, il n'y a rien d'officiel ni d'absolu. Il y a aussi des questions sans réponse à propos des méthodes de calcul de Google (htm est-il inclus dans html ?).

Remarques :

  • de nouveaux formats ont été pris en compte, dont le format ouvert OpenDocument Text (odt), Spreadsheet (ods, tableur) et Presentation (odp) ;
  • par rapport à octobre, les résultats de cette mesure ne changent guère ;
  • enfin, mea culpa pour les images : le mode d'estimation des 3 premières mesures n'était pas adapté, car basé sur une recherche de texte qui ne figure pas dans un fichier image ; ce mois-ci, Google Image a été utilisé avec comme mot recherché la seule première lettre du nom du format (ainsi p pour png) qui figure dans le nom du fichier ; les 10,71 millions en jpg, jpeg, png et gif représentent 0,09%.

On a toujours le format brut (ou absolu), avec par exemple des millions de fichiers, qui correspondent en format relatif, (en pourcentage) à bien moins... (18,6 millions de fichiers txt, soit 0,19%). L'information aura plus ou moins de force suivant le format retenu...

Sources et liens :