Le référencement naturel ou SEO (pour Search Engine Optimization) ne s’arrête pas à un contenu sémantiquement optimisé ou à un nettoyage du maillage d’un site. Pour qu’un référencement soit efficace, il faut absolument analyser le trafic du site, sur toutes les pages, et récupérer toutes les données possibles sur le passage des robots d’indexation… et du public ciblé.

 

L’analyse des logs est la base du SEO technique : elle permet de peaufiner la vision du crawl de Google sur le site et de préciser les données reçues sur Google analytics ou la Search console.

 

Nous allons ici voir pourquoi l’analyse de logs est un travail indispensable pour améliorer le référencement des grands sites à la forte volumétrie mais aussi un outil indispensable en webmarketing.

 

Crawler en eau douce

Le mot « log » est l’abréviation de « logging », ou plus précisément dans notre cas de « log file » soit un fichier ou une base de data rassemblant l’historique des évènements issus d’un processus informatique particulier. C’est un outil d’analyse « de base » pour avoir une vision très précise de ce qu’il se passe sur l’utilisation d’un logiciel par exemple. En français, on parlera de « fichier journal », « journal serveur », « fichiers de traces », etc.

 

Ce qui nous intéresse en SEO, c’est bien sûr une analyse approfondie du crawl, de l’indexation des bots des moteurs de recherche. Le fameux Googlebot est passé sur votre page ; suivant de nombreux critères, il va l’indexer et cette indexation servira au positionnement sur les SERP (page de résultats de Google). On est au cœur du SEO technique. La Search console permet ce genre d’analyses, mais de manière superficielle et en aucun cas en temps réel : au contraire, les renseignements remontent plusieurs jours après le crawl.

 

Le deuxième intérêt d’une analyse SEO des données des logs est de suivre le parcours des utilisateurs. Là aussi, Google fournit son outil : Google Analytics. Encore une fois, pour une analyse professionnelle et profonde de l’audience, cet outil d’analyse ne suffit pas. Ce que l’on appelle la granularité (la finesse d’analyse) est trop haute. Par exemple, le laps de temps entre deux analyses est d’une heure. Et sur le web, il s’en passe des choses en une heure, notamment pour les grands sites !

 

On l’aura compris, une analyse du trafic avec Analytics et la Search console peut suffire pour un petit site, un site ayant un petit nombre de pages et de visites.

 

Pour les grands sites et encore plus ceux à visée marchandes et/ou marketing, seule une analyse des logs est stratégiquement payante, surtout croisée avec Analytics ou la Search console.

 

Ces fameux logs se trouvent sur les serveurs d’hébergement. C’est une obligation légale pour les serveurs de fournir cet historique d’événements. Ils listent en temps réel tout ce qu’il se passe sur le site, tous les accès appelés « hits ». Les logs contiennent donc les hits pour chaque partie d’un site : images, pages, scripts JavaScript, etc. Ils conservent les traces des internautes et du googlebot.

 

La masse de données est vertigineuse et en retirer « la substantifique moelle », les renseignements qu’il vous faut, est plus souvent affaire d’astuces en recoupement d’informations que d’utilisation automatique d’outils d’analyse professionnels. C’est dans ce domaine que le savoir-faire et l’expérience d’un expert SEO prend toute sa valeur. Entre le monitoring au jour le jour et les analyses sur le long terme, les data recueillies balayent un immense champ d’analyses, surtout pour un site au grand nombre de pages.

 

Voyons les données les plus utiles en SEO.


 

Le crawl des googlebots : une mine d’infos

L’analyste pourra voir, en scrutant le crawl du googlebot, les pages les plus visitées par le moteur de recherche et bien évidemment celles qui ne le sont pas. L’intérêt en matière de SEO est de savoir « en direct » si les optimisations SEO mises en place sont efficaces et de pouvoir rectifier l’éventuel problème en demandant, par exemple, une indexation auprès de Google en soumettant ou un sitemap (idéal pour un grand site) ou directement une URL.

 

Scruter le chemin des robots d’indexation dans votre site est pertinent dans le cadre d’une chute de votre audience. Si le positionnement de votre site est relégué dans les tréfonds des pages de Google, l’expert SEO pourra déterminer le pourquoi du problème et y remédier.

 

C’est aussi un outil indispensable pour analyser le maillage interne d’un site et voir où les robots « coincent » : une mauvaise URL ou code HTTP, une erreur de manipulation, un déplacement de fichier, etc. Le robot, mais votre client aussi, se retrouve sur une des fameuses pages « Error » avec, suivant le défaut, un chiffre cabalistique, dont le fameux 404.

 

On peut déceler la fréquence de passage des bots : la fenêtre de crawl. Si, pour scanner votre site, Google prend 10 jours, il faudra attendre 10 jours lors d’une refonte SEO ou de modification du site pour en voir les conséquences. Anticiper le passage des robots devient un levier marketing hyper efficace. Un site marchand faisant des promotions, soldes ou autres opérations spéciales pourra calquer son calendrier sur celui de Google. Cela permet d’anticiper les saturations des serveurs lors de tels événements.


 

Gérer son budget crawl...

Toutes les pages ne sont pas crawlées quotidiennement. Le googlebot passe sur le site en empruntant les chemins « faciles » qui dépendent de la profondeur de la page, de la qualité du contenu, de la vitesse de chargement liée aux capacités du serveur, de la mise à jour des contenus, nombre de clics, etc.

 

Google note ces critères et attribue un budget d’exploration qui correspond au nombre de pages maximum que le robot va visite sur l’ensemble des websites incluant un grand nombre de pages. Plus votre budget crawl est important, plus votre site sera référencé. Plus vous aurez de visiteurs, de clients, de chiffre d’affaires.

 

... pour améliorer son taux de crawl

Le taux de crawl est tout simplement la différence entre le budget de crawl (le nombre de pages que le googlebot va visiter) et le nombre de pages de votre site.

 

Il faut que le temps passé à l’indexation soit optimal que les robots ne soient pas perdus dans des impasses d’URL trop nombreuses, une architecture trop complexe ou des pages peu intéressantes au niveau SEO comme les pages de forum autres que la première ; les pages à faible contenu comme les pages FAQ, les pages d’archives, etc.

 

On l’a vu plus haut, les éléments qui aboutissent au budget crawl sont très nombreux. L’équipe d’experts SEO peut actionner de nombreux leviers afin de gérer au plus près votre référencement.

 

Des “bouées” pour plonger dans les logs

Apprendre à nager dans cet océan de data est donc une affaire de pros du SEO et de logiciels pouvant brasser un grand nombre de données.  

 

Plus la volumétrie d’un site est grande moins il est facile de lire les logs. Depuis que le SEO est devenu une activité lucrative et incontournable, bon nombre d’éditeurs de logiciels proposent des solutions assez complètes, en voici quelques-unes.

 

OnCrawl : précurseur du mariage des data et du SEO, OnCrawl propose plusieurs outils suivant le secteur professionnel (e-commerce, éditeurs de sites, professionnels du SEO) et des spécialisations pour les grands sites de milieux hyper concurrentiels : petites annonces, voyages ou programmes éducatifs. Mais des abonnements « de base » permettent aussi de faire ses propres analyses SEO, idéal pour les blogueurs et les SEO freelance. Cerise sur le gâteau pour les débutants et les autres, le blog et les webinaires de l’équipe sont très complets.

 

Seolyser.io : simple, clair, efficace, en ligne, Seolyzer est plutôt orienté on-page. Il scanne les logs pour faire remonter tous les éléments stratégiques : duplication, maillage interne, balise title, erreurs 404, etc. Il imite le crawl du googlebot et dévoile les dysfonctionnements. Son attrait est de fournir un ensemble complet de data en temps réel, contrairement aux outils de Google, avec des interfaces et des rapports user friendly. L’utilisateur peut aussi choisir de mettre en place une catégorisation des pages pour voir si le trafic alimente bien les pages élaborées pour l’acquisition de prospects, de clients. Petit plus, Seolyser est un outil gratuit ! Cette solution très complète est en version beta pour l’instant ce qui est de bon augure pour la suite.

 

Screamingfrog Log File Analyser : cette « grenouille hurleuse » est une agence anglaise orientée webmarketing (SEM, SMM, SEO, etc) qui édite deux logiciels : SEO Log File Analyser et Seo Spider Tool. Ce dernier imite le crawl d’un googlebot et remonte les erreurs : des URL canoniques aux erreurs 404, des méta-descriptions aux images à réduire, etc. Le spider tool permet aussi d’éditer un Sitemap.xml. Il existe une version allégée gratuite qui peut convenir pour un petit site web (scan de moins de 500 URL).

 

Le SEO log File Analyser est, comme son nom l’indique, un outil complet orienté « pro », assez facile à prendre en main mais nécessitant des connaissances pointues pour le paramétrer. Une fois les fichiers de log importés, il scannera l’ensemble pour débusquer, au choix : les URL crawlés par les moteurs de recherche et la fréquence de crawl, les URL en erreur, ceux nécessitant un trop long chargement, etc. Il peut déterminer les pages peu visitées en comparant les résultats à la liste des URL du site. D’autres fonctions serviront à peaufiner le tableau de bord présentant entre autres :

  • des données brutes tel le nombre d’URL crawlées, la fréquence, le nombre de hits, etc.
  • le suivi des robots de Google (desktop, mobile et smartphone), Bing, Baidu et Yandex.
  • un onglet URL permettant de les trier par type et de connaître leurs hits.
  • un outil d’analyse des response codes HTTP, idéal pour exporter la liste des erreurs 404, etc.

 

Notons que la version gratuite inclue les mêmes fonctions que la version pro mais ne permet qu’un seul projet d’analyse de 1000 lignes de log maximum. Peut-être une bonne façon de se former au SEO technique.

 

L’affinage du SEO pour un webmarketing gagnant

L’analyse du journal serveur affine la surveillance du site dans son entier. Cette veille est primordiale pour conserver une bonne structure des sites web avec un grand nombre de pages mais aussi sur le plan webmarketing.

Mettons de côté Google et son googlebot pour nous intéresser à l’humain, au client.

Les logs permettent de « suivre » les internautes et leurs habitudes, de multiplier les données : horaires et temps de connexion, appareil (desktop ou mobile), système d’exploitation, navigateur, etc.

 

Ce côté purement marketing d’analyse de big data amène des informations indispensables pour mieux connaître son public, ses clients et gérer des opérations marketing optimales.

 

Un exemple parmi d’autres : intégrer un texte, un article, un nouveau produit, une campagne de réduction doit intervenir lorsque la fréquentation du site atteint son maximum.

 

De plus, vous pouvez mesurer en direct l’impact d’une telle campagne ou d’une opération promotionnelle GoogleAds ou autre. Vous verrez rapidement ce qui marche et ne marche pas.

 

Cette veille technique permet aussi de gérer en temps réel des problèmes, notamment de serveur, au niveau du flux de connexions. On entend souvent dire que, lors de la sortie d’un nouveau produit ou d’un nouveau jeu, le service n’est pas disponible car les serveurs sont saturés. Lorsqu’une telle opération est lancée, les techniciens SEO surveillent en temps réel le trafic et peuvent anticiper l’impact d’une opération, ou du moins réagir avant que le serveur ne crashe.

 

En conclusion, quand on gère un site de grande ampleur, l’analyse de log est un dispositif à mettre en place absolument sous peine de perdre du temps et de l’argent. Nous sommes en plein dans le domaine du « big data ». Ce domaine où la « débrouillardise » des techniciens et experts rompus au recoupement des datas est bien plus efficace que des logiciels de gestion de fichiers log manipulés par des non-professionnels...