Pourquoi Google ignore-t-il la directive crawl-delay de votre robots.txt ?

Declaration officielle

Google n'honore pas la directive de crawl-delay dans le fichier robots.txt, contrairement à certains autres moteurs de recherche comme Bing.

33:03

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 55:47 💬 EN 📅 25/08/2015 ✂ 9 déclarations

Voir sur YouTube (33:03) →

✂ Autres déclarations de cette vidéo 8 ▾

2:06 Le fichier robots.txt est-il vraiment indispensable pour ranker sur Google ?
4:30 Google peut-il vraiment indexer vos pages sans les crawler ?
11:02 Comment Google hiérarchise-t-il vraiment les directives robots.txt ?
15:52 Faut-il bloquer les pages de filtres par robots.txt ou miser sur la canonicalisation ?
16:16 Faut-il vraiment corriger toutes les erreurs du fichier robots.txt ?
18:53 Les outils Search Console pour robots.txt sont-ils vraiment fiables pour éviter les erreurs de crawl ?
22:14 L'API Google Maps peut-elle bloquer l'indexation de vos données de localisation ?
52:55 Pourquoi bloquer des URLs en robots.txt dilue-t-il le PageRank de vos backlinks ?

Ce qu'il faut comprendre

Qu'est-ce que la directive crawl-delay et à quoi sert-elle ?

La directive crawl-delay s'insère dans le fichier robots.txt et définit un délai minimum en secondes entre deux requêtes du robot d'indexation. Elle a été introduite pour permettre aux propriétaires de sites de réguler la charge serveur lors du passage des bots.

Concrètement, une ligne comme "Crawl-delay: 10" demande au robot d'attendre 10 secondes entre chaque URL crawlée. C'est un mécanisme de protection contre les surcharges serveur provoquées par un crawl trop agressif, surtout sur des architectures anciennes ou des hébergements limités.

Pourquoi certains moteurs respectent-ils cette directive et pas Google ?

Bing, Yandex et quelques autres moteurs honorent la directive crawl-delay parce qu'ils ont historiquement adopté cette spécification. Bing la documente officiellement et ajuste son comportement en conséquence.

Google a choisi une voie différente. Le moteur considère que Search Console offre des outils plus granulaires et efficaces pour gérer le rythme de crawl. La position de Mueller est claire : crawl-delay n'a jamais fait partie du standard robots.txt supporté par Googlebot, et ça ne changera pas.

Comment Google gère-t-il alors la vitesse de crawl ?

Googlebot régule automatiquement son rythme en fonction de la santé du serveur. Si le site répond lentement ou retourne des erreurs 5xx, le robot ralentit spontanément. C'est un système adaptatif qui surveille les temps de réponse et la disponibilité.

Pour les sites qui veulent reprendre la main, Google met à disposition un outil de limitation du taux de crawl dans Search Console. Ce contrôle permet de fixer un plafond explicite, mais Google recommande de ne l'utiliser qu'en cas de problème avéré, pas comme réglage par défaut.

Crawl-delay est ignoré par Googlebot depuis toujours, ce n'est pas un bug récent
Bing et Yandex respectent cette directive, mais pas Google
Google propose des alternatives via Search Console et un système de régulation automatique basé sur la santé serveur
Placer crawl-delay dans robots.txt pour Google est inutile et peut créer une fausse sécurité
La directive n'a jamais fait partie du standard robots.txt officiel supporté par Google

Avis d'un expert SEO

Cette position de Google tient-elle la route face aux observations terrain ?

Oui, et c'est cohérent depuis des années. Les tests empiriques montrent que Googlebot n'a jamais ralenti son crawl en présence d'une directive crawl-delay, quelle que soit la valeur spécifiée. Aucun cas documenté ne prouve le contraire.

La vraie question, c'est que beaucoup de SEO déploient encore cette directive en pensant protéger leur serveur. Résultat : ils se privent d'un crawl optimal sur Bing et Yandex sans obtenir le moindre bénéfice côté Google. C'est un réglage hérité d'anciennes pratiques qui n'a plus lieu d'être dans une stack moderne.

Quelles limites faut-il pointer dans cette déclaration ?

Mueller ne précise pas à quel point le système adaptatif de Googlebot est réellement efficace. Sur des infrastructures complexes avec du load balancing ou des CDN, la détection de surcharge par Google peut être trompeuse. Le bot voit une réponse rapide du CDN, mais le serveur d'origine suffoque. [A vérifier] dans ces architectures distribuées.

Autre angle mort : les sites avec des millions de pages crawlables mais un budget serveur limité. L'outil Search Console permet de brider le crawl, certes, mais il manque de granularité. Impossible de dire "crawle vite cette section, doucement celle-là". On bride tout ou rien, ce qui est frustrant pour des architectures segmentées.

Y a-t-il des situations où crawl-delay reste pertinent ?

Oui, si votre trafic Bing ou Yandex est significatif. Un site avec une forte présence en Russie ou en Asie a tout intérêt à calibrer crawl-delay pour ces moteurs. Ignorer cette directive sous prétexte que Google n'en tient pas compte serait une erreur stratégique.

Pour les sites en migration ou pendant des pics de charge programmés, mieux vaut bloquer temporairement Googlebot via robots.txt (Disallow) ou désactiver complètement le crawl dans Search Console. Crawl-delay ne sert à rien, autant couper proprement.

Attention aux outils tiers qui scannent votre robots.txt et respectent crawl-delay : Screaming Frog, Botify et autres crawlers SEO peuvent ralentir considérablement si vous laissez une valeur élevée. Vérifiez les règles appliquées dans vos audits automatisés.

Impact pratique et recommandations

Que faut-il faire si vous avez crawl-delay dans votre robots.txt ?

Première étape : auditer votre fichier robots.txt et identifier la présence de crawl-delay. Si vous ciblez exclusivement Google, supprimez cette directive immédiatement. Elle encombre le fichier sans apporter aucun bénéfice.

Si vous avez du trafic significatif depuis Bing, Yandex ou d'autres moteurs qui respectent cette directive, calibrez la valeur en fonction de votre capacité serveur réelle. Une valeur de 1 à 5 secondes est généralement suffisante pour lisser la charge sans trop sacrifier la vitesse d'indexation.

Comment contrôler efficacement le crawl de Googlebot ?

Utilisez l'outil de limitation du taux de crawl dans Search Console (Paramètres > Taux de crawl). Google déconseille de le toucher sans raison valable, mais si votre serveur montre des signes de surchauffe pendant les pics de crawl, c'est l'endroit pour agir.

Surveillez vos logs serveur : analysez la fréquence des hits de Googlebot, les codes HTTP retournés et les temps de réponse. Si vous voyez des erreurs 503 ou des timeouts qui coïncident avec les passages du bot, c'est le signal pour intervenir. Mais attention, brider le crawl ralentit mécaniquement la découverte de vos nouvelles pages.

Quelles erreurs éviter dans la gestion du crawl ?

Ne vous fiez jamais uniquement à crawl-delay pour protéger votre serveur face à Google. C'est une fausse sécurité qui peut masquer des problèmes d'infrastructure réels. Si votre site ne supporte pas le rythme naturel de Googlebot, c'est un symptôme de faiblesse technique à traiter en priorité.

Evitez aussi de brider le crawl par défaut "au cas où". Google optimise déjà son comportement, et limiter artificiellement le taux de crawl peut retarder l'indexation de contenus stratégiques. N'agissez que si les logs montrent un problème avéré, pas sur une intuition.

Supprimer crawl-delay du robots.txt si vous ne ciblez que Google
Conserver et calibrer crawl-delay uniquement si Bing/Yandex représentent un volume significatif
Activer la surveillance des logs serveur pour détecter les surcharges liées au crawl
Utiliser l'outil Search Console pour brider le crawl en dernier recours, pas en prévention
Vérifier que vos outils d'audit SEO (Screaming Frog, Botify) n'appliquent pas crawl-delay à votre insu
Traiter les problèmes d'infrastructure sous-jacents plutôt que de masquer avec des limitations de crawl

La gestion du crawl budget et des rythmes d'indexation repose sur une analyse fine des logs, une infrastructure serveur solide et l'usage judicieux des outils Google. Ces optimisations demandent une expertise technique pointue et un suivi régulier. Si votre équipe manque de ressources ou de compétences internes sur ces sujets, faire appel à une agence SEO spécialisée peut s'avérer pertinent pour mettre en place une stratégie de crawl adaptée à votre contexte et éviter les erreurs coûteuses en visibilité.

❓ Questions frequentes

Est-ce que Googlebot a déjà respecté crawl-delay par le passé ?

Non, Googlebot n'a jamais honoré cette directive depuis son existence. Ce n'est pas un changement récent, c'est une position historique de Google qui n'a jamais intégré crawl-delay dans son interprétation du standard robots.txt.

Si je supprime crawl-delay, est-ce que Googlebot va saturer mon serveur ?

Peu probable. Googlebot ajuste automatiquement son rythme en fonction de la santé du serveur. Si votre infrastructure est correctement dimensionnée, le bot ne provoquera pas de surcharge. Si vous constatez des problèmes, c'est un signal d'alerte sur votre architecture.

Bing respecte-t-il vraiment crawl-delay ou est-ce juste théorique ?

Bing respecte effectivement cette directive et l'a documenté officiellement. Des tests empiriques montrent que Bingbot ralentit son crawl conformément à la valeur spécifiée dans robots.txt. C'est une différence notable avec Google.

Peut-on combiner crawl-delay et l'outil de limitation dans Search Console ?

Techniquement oui, mais crawl-delay n'aura aucun effet sur Google. Seul l'outil Search Console impactera le comportement de Googlebot. L'un ne renforce pas l'autre côté Google, ils opèrent sur des moteurs différents.

Comment savoir si mon serveur souffre réellement du crawl de Google ?

Analysez vos logs serveur : repérez les pics de requêtes Googlebot, les erreurs 503/504 concomitantes et les temps de réponse qui s'envolent. Corrélation temporelle entre passage du bot et dégradation de performance = problème avéré. Sans cette preuve, ne bridez rien.

🎥 De la même vidéo 8

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 55 min · publiée le 25/08/2015

🎥 Voir la vidéo complète sur YouTube →