Voici le premier PdF, Palmarès des Formats (recensés par Google)
L'article expliquant le 15 juillet qu'il est impossible d'établir un classement des formats les plus utilisés, ouverts ou pas, n'était pas exact, mea culpa : en effet, grâce à l'astuce détaillée en commentaires par Sébastien Billard, des statistiques sont disponibles.
Le principe est d'utiliser le moteur de recherche Google avec ses options avancées : il s'agit d'indiquer le type de format de fichier souhaité et un mot que l'on ne souhaite pas dans les fichiers. En utilisant un « mot » inexistant (long et avec uniquement des consonnes par exemple), on obtient un résultat.
La première mesure (BETA comme dirait Google) a été faite dans la nuit du 1er au 2 août 2005, entre 23h15 et 23h45 heure de Paris. Voici donc le premier article de la nouvelle catégorie Palmarès (des fichiers recensés par Google) :
- Tous formats : environ 3 580 000 000, dont envriron 3 380 000 000 en anglais et environ 86 000 000 en français.
- PDF : environ 72 200 000, soit 2,02% ; dont environ 64 400 000 en anglais et environ 4 720 000 en français.
- flash : environ 16 000 000 soit 0,45%.
- doc : environ 10 700 000, soit 0,30% ; dont environ 9 290 000 en anglais et environ 702 000 en français.
- txt : environ 7 290 000, soit 0,20%.
- ppt : environ 3 700 000, soit 0,10% ; dont environ 3 250 000 en anglais et environ 141 000 en français.
- PS : environ 3 500 000, soit 0,10% ; dont environ 3 070 000 en anglais et environ 215 000 en français.
- xls : environ 2 450 000, soit 0,07% ; dont environ 1 770 000 en anglais et environ 163 000 en français.
- rtf : environ 1 370 000, soit 0,04% ; dont environ 856 000 en anglais et environ 205 000 en français.
Au même moment, la page d'accueil de Google en anglais indiquait : « Searching 8,058,044,651 web pages ».
Les 8 formats précis ci-dessus ne représentent donc que 3,28% de tous les formats. Et même le PDF avec plus de 72 millions ne représente qu'un peu plus de 2%... En tout cas dans le cadre de cette mesure.
Le nom de PdF est bien sûr un clin d'œil au nom du format d'Adobe... mais avec une minuscule entre les deux majuscules (classements, hit-parade, baromètre, charts, top des formats ne sonnaient pas aussi bien ; même chose quant à formamètre, formatomètre ou formatimètre construits comme pluviomètre, altimètre ou chronomètre).
Sources et liens :
- La page Google recherche avancée, http://www.google.fr/advanced_search?hl=fr
- La page d'accueil de Google en anglais, http://www.google.com
4 réactions
1 De Olivier Delhomme - 03/08/2005, 20:29
Je ne crois pas que cet état reflète l'utilisation réelle des différents formats de fichiers mais plutôt les formats de fichiers les plus utilisés pour la publication sur le web :
- .ps environ 3 480 000
- .html environ 841 000 000
- .htm environ 275 000 000 (j'ignore si cet ensemble est aussi inclus dans le précédent)
- .php environ 90 000 000
- .php3 environ 2 860 000
- .css environ 53 800
- .asp environ 138 000 000
- .jpeg environ 1 650
- .jpg environ 173 000
- .png environ 107 000
- .gif environ 185 000
- .c environ 773 000
- .cpp environ 565 000
- .pas environ 93 500
- .vbs environ 45 600
J'ignore ce que ces valeurs représentent mais elles semblent assez étranges notamment pour le comparatif asp vs php alors que l'on dit partout que 60% des serveurs web tournent sous apache.
2 De Thierry Stoehr - 03/08/2005, 21:26
Il ne s'agit pas du tout du classement général de l'utilisation des formats, mais bien d'un palmarès à un instant donné avec un outil donné qui comptabilise d'une certaine manière un secteur donné (le Web), ou du moins une partie. Donc, c'est tout à fait limité comme mesure et incomplet (les fichiers HTM et HTML par exemple). C'est ce que j'indiquais dans l'article du 15 juillet, formats-ouverts.org/blog/... : mesurer, oui, mais dire quoi comment quand. C'est donc bien un palmarès à partir de Google, et pas du tout LE palmarès de tous les formats.
3 De Olivier Delhomme - 04/08/2005, 20:15
Oui, ça méritait d'être précisé ! Ceci dit, mea culpa, je n'avais pas pris le temps de lire votre article du 15 juillet où tout est expliqué.
Je trouve que l'idée est sympa et que le web se prête facilement pour faire toutes sortes de mesures et de statistiques
et pour continuer sur le même sujet, le 04 août 2005 à 20h10 heure de paris :
.deb environ 1 520 000
.rmp environ 30 200
.exe environ 2 580 000
finalement ce qui serait pas mal ce serait de rechercher directement les en-têtes des fichiers (oui les fichiers exécutables sous linux n'ont pas d'extension, par contre ils contiennent les caractères ELF; idem pour ceux sous Macintosh qui eux commencent par \xFEEDFACE)
4 De pieral - 17/08/2005, 16:33
Bonjour, je réponds tardivement...
pourquoi ne pas chercher en lançant une recherche du type *.format (ex *.pdf)?
cordialement,