Qu’est-ce qu’un crawler ? Le guide pour comprendre comment les robots lisent votre site

Partager l'article ou le résumer avec l'IA :

Un crawler est un robot qui explore le web de lien en lien pour collecter des pages et les transmettre aux moteurs de recherche. Sans lui, aucune page ne peut être indexée ni apparaître dans les résultats. C’est lui qui alimente les bases de données des moteurs, en parcourant les sites de manière automatique.

Ce robot n’agit pas au hasard : il suit les règles définies par chaque site (robots.txt, balises meta, liens internes) et respecte un budget d’exploration limité. Certaines pages sont crawlées régulièrement, d’autres rarement, certaines jamais. Un contenu peut être bien optimisé et rester invisible simplement parce qu’il n’a pas été découvert. Si une page n’est pas explorée, elle n’est ni indexée, ni visible : elle n’existe pas pour Google.

Avant les mots-clés, les positions ou le trafic, il faut que les robots accèdent aux pages. Comprendre comment fonctionne un crawler, c’est éviter que des contenus stratégiques restent dans l’angle mort des moteurs.

Le rôle et le comportement d’un crawler

Un robot qui parcourt le web en suivant les liens

On peut comparer un crawler à une araignée numérique, d’ailleurs « spider » est un autre nom du crawler ! L’araignée tisse sa toile (Internet) en suivant les fils (les liens hypertextes).

Lorsqu’un robot visite une page, il parcourt son code source, repère tous les liens présents, puis les suit un à un. La page entre alors dans le processus d’indexation. C’est ainsi que les moteurs enrichissent progressivement leur base de données avec les pages découvertes.

Le parcours du crawler commence par la page d’accueil d’un site, une page déjà connue ou une URL présente dans un sitemap. Le robot suit les liens internes pour accéder aux autres pages du site et les liens externes pour découvrir de nouveaux domaines. Plus les liens sont clairs, accessibles et bien structurés, plus le crawl est fluide.

Cette exploration n’est pas constante ni exhaustive. Certaines pages sont crawlées très fréquemment, comme les sites d’actualités ou de grands médias, tandis que d’autres peuvent rester des semaines sans qu’un robot les visite. La fréquence de crawl dépend de nombreux facteurs comme la notoriété du site, la fréquence de mise à jour ou le maillage interne.

Tous les liens ne sont pas suivis. Les robots ne suivent que les liens HTML classiques (balises « a href »). Ceux marqués en « nofollow » ou générés en JavaScript sont ignorés.

Zoom sur Googlebot, le robot d’exploration de Google

Googlebot est le robot d’exploration utilisé par Google pour parcourir le web. Il existe plusieurs versions de Googlebot, qui imitent différents types d’appareils : un ordinateur de bureau (Googlebot Desktop), un smartphone (Googlebot Mobile) et une version dite « evergreen », mise à jour régulièrement pour refléter les dernières versions du navigateur web Chrome.

Depuis 2020, Googlebot Mobile est utilisé par défaut pour explorer la majorité des sites. Cela signifie que la version mobile des sites est la référence pour l’indexation. Si le site n’est pas adapté aux mobiles ou si des contenus y sont absents, c’est cette version incomplète qui sera prise en compte dans la base de données du moteur. Un design responsive est désormais un prérequis pour que le site soit correctement référencé.

Il existe plusieurs moyens de vérifier si Googlebot explore un site et l’indexe :

  • La Search Console fournit des rapports détaillés sur l’indexation et les éventuels problèmes rencontrés.
  • La commande « site:votresite.fr » sur la page de recherche donne un aperçu rapide des pages actuellement indexées.
  • L’analyse des logs serveur permet d’identifier les passages du robot, la fréquence de crawl et les éventuelles zones ignorées. Cette méthode, plus technique, est souvent utilisée en audit SEO pour affiner le diagnostic.

Google n’est pas seul à explorer le web. Le moteur de recherche Bing dispose de Bingbot et OpenAI (maison mère de ChatGPT) possède GPTBot pour crawler le web et améliorer son modèle de langage. D’autres crawlers comme Screaming Frog SEO Spider, AhrefsBot ou SemrushBot servent à analyser les sites pour des outils SEO dont ils dépendent. Même s’ils n’ont pas le même comportement que Googlebot, leur principe de fonctionnement reste similaire : explorer un site en suivant les liens.

Comment un crawler explore un site web

Le parcours d’une page : de l’exploration à l’indexation

Avant d’être indexée, une page doit être trouvée par le crawler. Elle peut l’être via un lien interne, un lien externe, un sitemap ou une redirection. Une page isolée sans aucun lien pointant vers elle ne pourra pas être découverte par le robot et restera invisible.

Une fois la nouvelle URL identifiée, le robot tente de charger la ressource. Il analyse le code HTML, repère le texte, les balises, les liens :

  • Si tout se passe bien, le contenu est récupéré et transmis pour traitement.
  • En cas d’échec de chargement, de lenteur ou de contenu masqué par du JavaScript mal géré, l’exploration peut échouer ou rester partielle.

Vient ensuite l’indexation. Une page explorée n’est pas systématiquement indexée. Le moteur peut décider de ne pas l’intégrer à son index, temporairement ou définitivement. Parmi les raisons possibles à une non-indexation :

  • Contenu jugé trop faible ou redondant,
  • Présence d’une balise noindex ou d’un en-tête bloquant,
  • Manque d’intérêt perçu par l’algorithme.

La Search Console indique quelles pages ont été explorées mais non indexées. Il est possible de demander manuellement leur indexation. Les robots reviendront explorer les pages concernées et les algorithmes réévalueront leur contenu pour décider d’une éventuelle indexation.

Une fois la page indexée, elle peut s’afficher dans les résultats de recherche. Elle n’est pas forcément bien positionnée à sa prise en compte par le moteur. Le classement des pages dépend d’autres critères : qualité du contenu, pertinence par rapport à la requête, autorité, vitesse de chargement, structure du site…

Fonctionnement d'un crawler en 6 étapes :
- découverte de l'URL
- chargement du contenu
- analyse du code source
- exploration des liens
- envoi à l'indexation
- page visible sur les moteurs de recherche

Les balises et fichiers qui orientent les robots

Pour explorer un site, les crawlers s’appuient sur différents éléments techniques qui leur indiquent quoi visiter, quoi ignorer et comment interpréter les contenus. Mal configurés, ces éléments peuvent freiner voire empêcher l’exploration. Bien utilisés, ils facilitent le crawl du site.

L’exploration commence par l’analyse du fichier robots.txt, placé à la racine du site. Il leur donne des consignes générales : les sections à ne pas explorer, les ressources à ignorer et les robots concernés. Par exemple, le fichier par défaut d’un site WordPress ressemble à ceci :

Capture du robots.txt par défaut de WordPress

En décodant ce fichier :

  • User-agent : le nom des crawlers concernés. L’astérisque indique tous les robots.
  • Disallow : l’accès est interdit à l’espace d’administration
  • Allow : la seule ressource autorisée dans l’espace d’administration, nécessaire au fonctionnement du site.

Un fichier robots.txt mal rédigé peut bloquer des pages importantes ou laisser passer des contenus inutiles. Laisser les moteurs de recherche indexer l’espace d’administration peut engendrer de grosses failles de sécurité sur un site !

Le sitemap XML liste les pages sélectionnées pour être indexées. Les robots l’analysent pour comprendre la structure du site. Il est important de le garder à jour. Sur WordPress, des plugins permettent sa mise à jour automatique à la publication d’une nouvelle page ou d’un nouvel article (par exemple RankMath, SEOPress ou Yoast).

Les balises meta robots sont présentes dans le head des pages et permettent de contrôler l’indexation et le suivi des liens. On peut y indiquer des consignes comme « noindex » (ne pas indexer cette page) ou « nofollow » (ne suivre aucun lien depuis cette page).

D’autres éléments sont utiles aux robots : l’attribut rel= »canonical » pour éviter le contenu dupliqué sur des pages proches, les balises hreflang pour cibler une langue ou un pays sur un site multilingue ou les balises de pagination. Leur impact sur le crawl est indirect.

Ce qui peut freiner ou bloquer un crawler

Certaines pages échappent aux radars des moteurs de recherche. Les causes sont variées : lenteur, mauvaise configuration du site, structure confuse… Certaines freinent le crawl, d’autres le bloquent. Comprendre ces points de friction permet d’éviter qu’un site perde en visibilité.

Parmi les freins fréquents, on retrouve :

  • Les temps de chargement excessifs
  • Les éléments difficiles à interpréter, comme ceux générés en JavaScript
  • Les pages trop profondes dans l’arborescence
  • Les pages orphelines, absentes du maillage interne

D’autres problèmes bloquent l’exploration dès le départ :

  • Un fichier robots.txt trop restrictif
  • Une erreur serveur (403, 404, 500)
  • Une balise noindex présente sur une page importante
  • Un accès restreint à certaines ressources. Par exemple, si un dossier « /blog/ » est bloqué dans le robots.txt, aucune page dépendant de ce dossier ne pourra être explorée (sauf si elle a été indexée avant le blocage du dossier).

Ces obstacles ne sont pas toujours visibles depuis le site ou l’espace d’administration. Des outils spécifiques comme la Search Console, un crawler SEO ou l’analyse des logs serveur permettent de repérer les pages non explorées ou mal traitées.

Ces problèmes peuvent être corrigés avec les bons réglages et une architecture de site optimisée.

Comment les robots perçoivent une page

Le HTML, seule langue des crawlers

Lorsqu’un crawler explore une page web, il n’en voit pas l’apparence finale. Il accède uniquement à son code source HTML. Ce fichier brut contient toutes les informations de la page : balises et leurs attributs, texte, liens internes… Le crawler ne verra pas les images présentes, seulement la balise image avec son lien et son attribut « alt ». Pour voir ce que lit un robot, il suffit d’afficher le code source dans son navigateur : clic droit > Inspecter.

Une page bien structurée aide les robots à interpréter rapidement le contenu :

  • Une hiérarchie claire des titres
  • Des balises et leurs attributs correctement utilisés
  • Un contenu présent dans le HTML, même s’il est replié ou masqué visuellement

Plus la structure est propre, plus la compréhension de la page est rapide et fiable.

Les éléments que les crawlers interprètent mal

Même si une page est complète pour le visiteur, certaines parties peuvent être invisibles pour les crawlers. Il s’agit de contenus qui ne sont pas présents dans le HTML initial, comme :

  • Des éléments générés par JavaScript
  • Des blocs de recommandations ou d’avis intégrés depuis un service externe
  • Des carrousels dynamiques ou des contenus injectés après le chargement de la page

Les crawlers peinent à interpréter ce type d’éléments et des contenus pourtant visibles pour l’utilisateur peuvent être ignorés lors du crawl. Ces pages risquent d’être absentes de l’index.

Tous les robots n’interprètent pas le code de la même manière. Certains savent mieux gérer les éléments dynamiques, mais aucun ne garantit une lecture complète. Pour éviter les zones d’ombre, il faut s’assurer que les contenus importants sont présents dès le chargement de la page, sans dépendre d’un module ou d’un affichage dynamique.

Crawl limité : pourquoi Google n’explore pas tout le web

Internet compte plusieurs milliards de pages et Google ne peut pas tout visiter.

Chaque site dispose d’un budget d’exploration, c’est-à-dire un nombre limité de pages que les crawlers vont consulter à chaque visite. Ce budget n’est pas extensible et varie selon la structure, la notoriété ou la performance du site.

Si ce budget est mal utilisé ou mal orienté, certaines pages stratégiques peuvent passer sous les radars.

Budget de crawl : pourquoi Google ne peut pas tout explorer

Les crawlers n’explorent pas toutes les pages d’un site. À chaque passage, ils disposent d’un temps limité et d’une capacité restreinte à parcourir les pages : le budget de crawl.

Plusieurs critères influencent le budget de crawl :

  • La notoriété du site
  • L’arborescence
  • La rapidité de chargement des pages
  • La fréquence de publication
  • L’hébergement

Un site rapide et bien structuré sera exploré plus facilement. À l’inverse, un site lent ou rempli de pages peu utiles risque de voir son budget de crawl gaspillé. Ce budget évolue dans le temps, selon comment Google perçoit le site.

Un site e-commerce avec des dizaines de produits peut générer des centaines de pages : une fiche par produit avec des variantes par taille, couleur, disponibilité… Si chaque déclinaison crée une URL différente, sans contenu unique, Google perd du temps à explorer des contenus secondaires. L’utilisation d’une balise « canonical » sur ces pages évite le crawl inutile.

Les filtres de recherche ou les systèmes de navigation à facettes peuvent générer automatiquement des centaines d’URLs différentes à chaque combinaison de critères (taille + prix + couleur, par exemple). On reconnaît ces pages avec un « ? » dans l’URL. Ces pages ne devraient pas être explorées ni indexées, mais si rien n’est mis en place pour les bloquer, elles diluent le budget de crawl. Un paramètre dans le fichier robots.txt permet ce blocage.

Un paramétrage mal pensé peut détourner Google des pages importantes et empêcher leur exploration. La capacité du serveur et les éventuelles erreurs de réponse influencent également la fréquence de passage des robots.

Optimiser son budget de crawl ne signifie pas chercher à faire indexer la totalité des pages d’un site. L’objectif est d’aider les robots à se concentrer sur les pages essentielles.

Signes que votre site est mal exploré

Un site peut sembler fonctionner normalement, tout en laissant certaines pages inconnues aux crawlers. Aucun message d’alerte ne s’affiche, aucun dysfonctionnement visible ne trahit le problème.

Dans la Search Console, plusieurs signaux méritent une attention particulière :

  • Des pages explorées mais non indexées, sans raison technique évidente
  • Une couverture faible par rapport au volume réel de contenus
  • Une fréquence d’exploration anormalement basse, même pour des pages récentes ou mises à jour

Il est possible de demander manuellement l’indexation des nouvelles pages. Toutefois, il est important de se demander pourquoi l’indexation n’est pas systématique en cherchant une cause plus profonde.

D’autres indices doivent alerter :

  • Des pages stratégiques qui ne reçoivent aucun trafic organique
  • Des fiches produits qui n’apparaissent sur aucune requête
  • Une visibilité concentrée sur le même groupe de pages

Ces signaux ne sont pas visibles depuis l’interface du site. Un audit technique du site avec la Search Console, un crawler SEO et d’autres outils spécifiques permet d’identifier la cause probable (mauvaise structuration interne, gaspillage du budget de crawl, contenu perçu comme secondaire par exemple).

LAISSER UN COMMENTAIRE

Merci d'écrire votre commentaire.
Veuillez entrer votre nom ici