Palmarès des Formats (PdF) recensés par Google sur Internet
Après une tentative (en juillet), puis le premier PdF (début août) suivi du deuxième PdF (début septembre), voici donc une nouvelle photographie en ce début octobre des formats présents sur Internet et recensés par le moteur de recherche Google en recherche avancée (la méthode reste la même : demander une page sans un mot inexistant et dans un format particulier), avec des formats ouverts ou pas, et sans distinction de langue :
- Tous formats : environ 9 650 000 000
- HTML : environ 2 210 000 000, soit 22,90%
- HTM : environ 735 000 000, soit 7,61%
- PDF : environ 188 000 000, soit 1,95%
- Flash (swf) : environ 42 700 000 soit 0,44%
- doc : environ 27 900 000, soit 0,29%
- xml : environ 24 400 000, soit 0,25% (nouveau ce mois)
- txt : environ 19 300 000, soit 0,20%
- ppt : environ 9 320 000, soit 0,10%
- PS : environ 7 870 000, soit 0,08%
- xls : environ 6 550 000, soit 0,07%
- rtf : environ 3 530 000, soit 0,04%
- php : environ 244 000 000, soit 2,53%
- asp : environ 372 000 000, soit 3,85%
- rss : environ 2 430 000, soit 0,02 % (nouveau ce mois)
- tex (TeX et LaTeX) : environ 2 040 000, soit 0,02%
- rdf : environ 1 900 000, soit 0,02% (nouveau ce mois)
- Tous les résultats ci-dessous représentent moins de 0,01% (sauf les formats deb et exe)
- sxw (traitement de texte d'OpenOffice.org) : environ 165 000
- jpg : environ 172 000
- jpeg : environ 3 070
- png : environ 112 000
- gif : environ 185 000
- exe : environ 2 600 000, soit 0,03%
- deb : environ 2 980 000, soit 0,03%
- rpm : environ 30 200
- Mesure effectuée le mercredi 5 octobre 2005, entre 19h15 et 19h45, heure de Paris. Ces chiffres ne sont que des indications, il n'y a rien d'officiel ni d'absolu. Il y a aussi des questions sans réponse à propos des méthodes de calcul (htm est-il inclus dans html ?).
Remarque : il ressort par rapport à août et à septembre, que les résultats de cette mesure augmentent fortement en valeur absolue (on passe ainsi de 3,57 milliards de pages tous formats à plus de 9,65 ; ou 71 à 188 millions de PDF). Cependant, en valeur relative, c'est-à-dire en proportion (%), il est intéressant de noter que les formats restent avec le même classement et presque le même pourcentage (à l'exception du .exe).
Encore une fois, il y a le format brut (ou absolu), comme 42 millions de pages Flash, et le format relatif, soit moins de 0,5% (0,44) ! Suivant le format retenu, l'information a plus ou moins de force...
Sources et liens :
- La page Google recherche avancée, http://www.google.fr/advanced_search?hl=fr
- La page d'accueil de Google en anglais, http://www.google.com
6 réactions
1 De Didier R - 05/10/2005, 22:53
Sans me permettre de douter de tes résultats (beau boulot, d'ailleurs !), je n'obtiens pas le même chiffre pour les RPM. Quelle est ta méthode ?
www.google.com/search?q=-...
Non ? J'obtiens ~7650, soit 3 fois moins que toi. Non ?
2 De bruno - 06/10/2005, 08:20
>Didier : je viens de tester et j'obtiens bien 30200 pour les RPM
Je n'ai pas vu dans ces résultats les documents xhtml, google en trouve pourtant 2 520 000 ! Est-ce un oubli, est-ce volontaire, ou cela a-t-il été comptabilisé avec les documents HTML ?
J'ai également fait la recherche sur les documents cfm : 160 000 000 ;
sur shtml : 233 000 000
On peut encore s'amuser avec d'autres formats, comme les formats compréssés (zip, rar, bz2, gz qui donne 2880000, etc.)
En tout cas ces stats sont fort intérréssantes, d'autant plus si l'on arrive a suivre leur évolution dans le temps.
3 De Olivier - 06/10/2005, 10:48
Et le reste ?
Je veux dire, si on fait le total des pourcentages, on obtient même pas 50%.
A mon avis, google se fourvoit d'une manière ou d'une autre : j'ai du mal à croire qu'il y ait si peu d'images sur internet....
4 De Didier R - 06/10/2005, 15:04
@Bruno> En effet. Je suis très étonné ! Bizarre. J'aurais dû faire une copie d'écran.
5 De Thierry Stoehr - 06/10/2005, 20:32
Cette mesure n'est qu'indicative, et ne repose que sur les résultats fournis par Google, sans savoir exactement comment les calculs sont faits. Ils sont donc à prendre avec précaution, ce qui est indiqué, et ce que confirme les 50% à peine atteint.
Pour les formats xhtml, shtml, cfm, zip ou rar, ils n'y sont pas car je n'ai pas fait de recherches dessus, ce que j'intègre dès le mois prochain. Merci pour les mesures.
6 De Fred Bird - 07/10/2005, 16:06
Pour information, les formats .php, .asp, .jsp, cgi etc sont ceux de scripts serveurs générant habituellement du html et dérivés (mais pas toujours). Il ne s'agit pas à proprement parler de formats de document...