Declaration officielle
Autres déclarations de cette vidéo 8 ▾
- 2:06 Le fichier robots.txt est-il vraiment indispensable pour ranker sur Google ?
- 4:30 Google peut-il vraiment indexer vos pages sans les crawler ?
- 11:02 Comment Google hiérarchise-t-il vraiment les directives robots.txt ?
- 15:52 Faut-il bloquer les pages de filtres par robots.txt ou miser sur la canonicalisation ?
- 16:16 Faut-il vraiment corriger toutes les erreurs du fichier robots.txt ?
- 18:53 Les outils Search Console pour robots.txt sont-ils vraiment fiables pour éviter les erreurs de crawl ?
- 22:14 L'API Google Maps peut-elle bloquer l'indexation de vos données de localisation ?
- 52:55 Pourquoi bloquer des URLs en robots.txt dilue-t-il le PageRank de vos backlinks ?
Google ne respecte pas la directive crawl-delay dans le fichier robots.txt, contrairement à Bing et d'autres moteurs. Cette directive permet théoriquement de ralentir le rythme de crawl, mais Googlebot l'ignore purement et simplement. Les SEO qui comptent sur crawl-delay pour contrôler la charge serveur ou gérer le budget de crawl passent à côté des vrais outils à leur disposition.
Ce qu'il faut comprendre
Qu'est-ce que la directive crawl-delay et à quoi sert-elle ?
La directive crawl-delay s'insère dans le fichier robots.txt et définit un délai minimum en secondes entre deux requêtes du robot d'indexation. Elle a été introduite pour permettre aux propriétaires de sites de réguler la charge serveur lors du passage des bots.
Concrètement, une ligne comme "Crawl-delay: 10" demande au robot d'attendre 10 secondes entre chaque URL crawlée. C'est un mécanisme de protection contre les surcharges serveur provoquées par un crawl trop agressif, surtout sur des architectures anciennes ou des hébergements limités.
Pourquoi certains moteurs respectent-ils cette directive et pas Google ?
Bing, Yandex et quelques autres moteurs honorent la directive crawl-delay parce qu'ils ont historiquement adopté cette spécification. Bing la documente officiellement et ajuste son comportement en conséquence.
Google a choisi une voie différente. Le moteur considère que Search Console offre des outils plus granulaires et efficaces pour gérer le rythme de crawl. La position de Mueller est claire : crawl-delay n'a jamais fait partie du standard robots.txt supporté par Googlebot, et ça ne changera pas.
Comment Google gère-t-il alors la vitesse de crawl ?
Googlebot régule automatiquement son rythme en fonction de la santé du serveur. Si le site répond lentement ou retourne des erreurs 5xx, le robot ralentit spontanément. C'est un système adaptatif qui surveille les temps de réponse et la disponibilité.
Pour les sites qui veulent reprendre la main, Google met à disposition un outil de limitation du taux de crawl dans Search Console. Ce contrôle permet de fixer un plafond explicite, mais Google recommande de ne l'utiliser qu'en cas de problème avéré, pas comme réglage par défaut.
- Crawl-delay est ignoré par Googlebot depuis toujours, ce n'est pas un bug récent
- Bing et Yandex respectent cette directive, mais pas Google
- Google propose des alternatives via Search Console et un système de régulation automatique basé sur la santé serveur
- Placer crawl-delay dans robots.txt pour Google est inutile et peut créer une fausse sécurité
- La directive n'a jamais fait partie du standard robots.txt officiel supporté par Google
Avis d'un expert SEO
Cette position de Google tient-elle la route face aux observations terrain ?
Oui, et c'est cohérent depuis des années. Les tests empiriques montrent que Googlebot n'a jamais ralenti son crawl en présence d'une directive crawl-delay, quelle que soit la valeur spécifiée. Aucun cas documenté ne prouve le contraire.
La vraie question, c'est que beaucoup de SEO déploient encore cette directive en pensant protéger leur serveur. Résultat : ils se privent d'un crawl optimal sur Bing et Yandex sans obtenir le moindre bénéfice côté Google. C'est un réglage hérité d'anciennes pratiques qui n'a plus lieu d'être dans une stack moderne.
Quelles limites faut-il pointer dans cette déclaration ?
Mueller ne précise pas à quel point le système adaptatif de Googlebot est réellement efficace. Sur des infrastructures complexes avec du load balancing ou des CDN, la détection de surcharge par Google peut être trompeuse. Le bot voit une réponse rapide du CDN, mais le serveur d'origine suffoque. [A vérifier] dans ces architectures distribuées.
Autre angle mort : les sites avec des millions de pages crawlables mais un budget serveur limité. L'outil Search Console permet de brider le crawl, certes, mais il manque de granularité. Impossible de dire "crawle vite cette section, doucement celle-là". On bride tout ou rien, ce qui est frustrant pour des architectures segmentées.
Y a-t-il des situations où crawl-delay reste pertinent ?
Oui, si votre trafic Bing ou Yandex est significatif. Un site avec une forte présence en Russie ou en Asie a tout intérêt à calibrer crawl-delay pour ces moteurs. Ignorer cette directive sous prétexte que Google n'en tient pas compte serait une erreur stratégique.
Pour les sites en migration ou pendant des pics de charge programmés, mieux vaut bloquer temporairement Googlebot via robots.txt (Disallow) ou désactiver complètement le crawl dans Search Console. Crawl-delay ne sert à rien, autant couper proprement.
Impact pratique et recommandations
Que faut-il faire si vous avez crawl-delay dans votre robots.txt ?
Première étape : auditer votre fichier robots.txt et identifier la présence de crawl-delay. Si vous ciblez exclusivement Google, supprimez cette directive immédiatement. Elle encombre le fichier sans apporter aucun bénéfice.
Si vous avez du trafic significatif depuis Bing, Yandex ou d'autres moteurs qui respectent cette directive, calibrez la valeur en fonction de votre capacité serveur réelle. Une valeur de 1 à 5 secondes est généralement suffisante pour lisser la charge sans trop sacrifier la vitesse d'indexation.
Comment contrôler efficacement le crawl de Googlebot ?
Utilisez l'outil de limitation du taux de crawl dans Search Console (Paramètres > Taux de crawl). Google déconseille de le toucher sans raison valable, mais si votre serveur montre des signes de surchauffe pendant les pics de crawl, c'est l'endroit pour agir.
Surveillez vos logs serveur : analysez la fréquence des hits de Googlebot, les codes HTTP retournés et les temps de réponse. Si vous voyez des erreurs 503 ou des timeouts qui coïncident avec les passages du bot, c'est le signal pour intervenir. Mais attention, brider le crawl ralentit mécaniquement la découverte de vos nouvelles pages.
Quelles erreurs éviter dans la gestion du crawl ?
Ne vous fiez jamais uniquement à crawl-delay pour protéger votre serveur face à Google. C'est une fausse sécurité qui peut masquer des problèmes d'infrastructure réels. Si votre site ne supporte pas le rythme naturel de Googlebot, c'est un symptôme de faiblesse technique à traiter en priorité.
Evitez aussi de brider le crawl par défaut "au cas où". Google optimise déjà son comportement, et limiter artificiellement le taux de crawl peut retarder l'indexation de contenus stratégiques. N'agissez que si les logs montrent un problème avéré, pas sur une intuition.
- Supprimer crawl-delay du robots.txt si vous ne ciblez que Google
- Conserver et calibrer crawl-delay uniquement si Bing/Yandex représentent un volume significatif
- Activer la surveillance des logs serveur pour détecter les surcharges liées au crawl
- Utiliser l'outil Search Console pour brider le crawl en dernier recours, pas en prévention
- Vérifier que vos outils d'audit SEO (Screaming Frog, Botify) n'appliquent pas crawl-delay à votre insu
- Traiter les problèmes d'infrastructure sous-jacents plutôt que de masquer avec des limitations de crawl
❓ Questions frequentes
Est-ce que Googlebot a déjà respecté crawl-delay par le passé ?
Si je supprime crawl-delay, est-ce que Googlebot va saturer mon serveur ?
Bing respecte-t-il vraiment crawl-delay ou est-ce juste théorique ?
Peut-on combiner crawl-delay et l'outil de limitation dans Search Console ?
Comment savoir si mon serveur souffre réellement du crawl de Google ?
🎥 De la même vidéo 8
Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 55 min · publiée le 25/08/2015
🎥 Voir la vidéo complète sur YouTube →
💬 Commentaires (0)
Soyez le premier à commenter.