Skip to content

Statistiques de serveur Web

L'interprétation des statistiques issues de la consultation d'un serveur Web est une tâche délicate. Plusieurs biais peuvent fausser totalement ces statistiques et donner une image erronée des consultations.

Voir aussi le chapitre "How the web works" de la documentation d'Analog qui explique comment sont calculées les statistiques Web. L'auteur explique, en particulier pourquoi la notion de "visite" n'a pas de sens sur le Web, ce qui n'empêche pas la plupart des outils d'en faire le centre de leurs résultats.
1. Bugs des outils

Un outil de statistiques peut avoir des bugs, ou bien être mal alimenté, mal configuré ou mal utilisé. Il convient donc de faire des contrôles systématiques de la cohérence des résultats. En particulier, il faut essayer expliquer toute modification significatives des grandes masses statistiques. Il faut vérifier aussi par exemple que tel document mis en une du site est bien consulté. Enfin, si l'on a reçu beaucoup de méls sur un document du site, il faut s'étonner si celui-ci n'apparaît pas en bonne place parmi les documents les plus consultés .

2. Proxy et cache

L'existence de serveurs proxys minore le nombre de visites. L'existence de serveurs caches minore le nombre de hits (et donc potentiellement de visites).


3. Copie de document

La copie de documents provenant d'un site sur des serveurs Internet ou intranet conduit à minorer les consultations.

4. Les robots

Les robots doivent a priori être exclus des statistiques. L'indexeur Google qui passe régulièrement ne doit pas par exemple être compté comme un internaute. Il faut donc s'assurer :

- que l'outil de statistique contient une liste de browsers considérés comme des robots et devant être exclus;
- que cette liste est suffisamment exhaustive et mise à jour régulièrement.

5. Visionneuse

Une visionneuse un sorte de proxy qui visualise un document web en mettant en évidence ou en modifiant certains éléments du document d'origine. Il ne faut pas confondre une visionneuse avec un robot: on doit bien compter les consultations faites à partir d'une visionneuse. Exclure des browsers identifiés par Java... ou Perl..., peut conduire à exclure des visionneuses. Cela n'est pas grave si l'utilisation de tels outils est minoritaire.

6. Images

Il faut généralement exclure les images des statistiques car celle-ci représentent plus la complexité graphique d'une page que son apport en information.

7. Les PDF

La consultation des PDF est généralement très surévaluée par les outils statistiques. Voici pourquoi.

Lorsque le navigateur récupère un PDF, il fait un hit, puis donne la main au plugin Acrobat qui lui même fait un nouveau hit pour récupérer le fichier. On a donc déjà un facteur multiplicatif de 2. Mais il y a pire, d'après la FAQ Analog. Le plugin Acrobat pour diminuer le temps de latence, récupère le fichier en petit morceaux en faisant un hit à chaque morceau. Ainsi il n'est pas rare de voir un dizaine de hits sur le même fichier. NB : lorsqu'à partir du navigateur, on fait 'enregistrer le fichier sous', on ne génère dans ce cas qu'un seul hit.

Comment éviter ce biais ? Il est très difficile de faire une correction a posteriori. On pourrait penser qu'il suffirait de calculer le nombre moyen de hits par consultation des PDF et de diviser le résultat obtenu avec l'outil statistique par ce nombre moyen. Malheureusement le nombre de hits par consultation doit probablement dépendre très fortement de la taille du PDF : plus il est gros, plus le plugin va découper sa récupération en morceaux et plus il y aura de hits. Ce correctif pénaliserait donc les petits documents par rapport aux grands.

Pour régler le problème à priori, il suffirait théoriquement de compter une seule consultation pour un ensemble de hits provenant d'un même adresse internet (adresse IP) et séparés dans le temps par au plus delta secondes. Cette approche conduit à un certain nombre de difficultés :

- Comment déterminer delta ?

- Ne risque t'on pas de surcorriger du fait de l'existence de Firewall permettant à plusieurs internautes de consulter avec la même adresse IP ?

- Le fait que ce correctifs ne soit pas intégré dans des outils standards comme Webtrend, Analog,..., conduirait vis à vis d'autres sites à minorer la consultation des PDF et pourrait conduire à des problématiques artificielles du type : Les documents du site X (appliquant notre correctif) sont 3 fois moins lus que ceux du site Y (utilisant Analog par exemple)=> il faut faire quelque chose pour les mettre plus en valeur. Par ailleurs il est toujours très difficile d'explique qu'un indicateur maison conduisant à des résultats très divergeant puisse être supérieur à un indicateur délivré par un outil reconnu par tous.

Conclusion : La consultation réelle des PDF n'est pas mesurable en l'état actuel des outils. Il faut de plus se garder de distribuer des chiffres qui pourrait laisser penser que le format PDF est presque aussi utilisé par l'Internaute que le HTML. Tout au plus peut-on obtenir sur un document donné une courbe représentant l'évolution de sa consultation dans le temps.

8. Documents découpés

Pour faciliter la navigation et augmenter la rapidité de consultation, on est parfois amené à découper un document en plusieurs fichier HTML (un fichier par chapitre par exemple). Comment connaître la consultation du document ? Totaliser les hits sur chaque morceaux favorise les documents très découpés. Par ailleurs google permet d'arriver sur n'importe quel morceau. Le morceau 3 peu alors être bien plus consulté que le morceau 1, entrée normale de la consultation du document. Une approche simple pour éviter ces biais consiste à considérer que la consultation du document est égale au maximum des consultations de ses morceaux.

Rétroliens

Pas de rétroliens

Commentaires

Afficher les commentaires en Vue non groupée | Vue groupée

ZeGuigui sur :

Belle analyse de ce que proposent les outils.

Concernant les visites c'est mis en avant par les outils car c'est ce qui intéresse les vendeurs de publicités, plus encore que le nombre de hits sur ton site. Un internaute qui visite 50 pages ne cliquera au plus qu'une seule fois sur une bannière donnée... mais 25 internautes qui visitent 2 pages ça fait potentiellement 25x plus de visites sur le site qui fait sa publicité.

Pour le PDF il me semble, mais c'est à tester, qu'acrobat a ce comportement uniquement si le fichier est enregistré dans un mode "streamable" (à défaut d'un mot français bien compréhensible). Et la récupération des paquets supplémentaires se fait en fonction de la lecture du document histoire de compliquer les choses. Ainsi si je lis uniquement les 3 premières pages et que je décide que le document ne m'intéresse pas la suite du document ne sera jamais récupérée du serveur. C'est alors un compromis bande passante / statistiques / rapidité à laquelle on commence à lire un gros document...

ZeGuigui sur :

J'oubliais : il faut aussi exclure les fichiers atom / rss de ses statistiques... beaucoup d'outils ne le font pas en standard et ça gonfle très artificellement le nombre de visites !

Ajouter un commentaire

Marquer un texte en gras: *mot*, souligner un texte: _mot_.
Les smilies standard comme :-) et ;-) sont convertis en images.
:'(  :-)  :-|  :-O  :-(  8-)  :-D  :-P  ;-) 
Les adresses Email ne sont pas affichées, et sont seulement utilisées pour la communication.

Pour éviter le spam par des robits automatisés (spambots), merci d'entrer les caractères que vous voyez dans l'image ci-dessous dans le champ de fomulaire prévu à cet effet. Assurez-vous que votre navigateur gère et accepte les cookies, sinon votre commentaire ne pourra pas être enregistré.
CAPTCHA

Form options