Pourquoi Google ignore-t-il la directive crawl-delay dans robots.txt ?

Quiz SEO Express

Testez vos connaissances SEO en 5 questions

Moins d'une minute. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~1 min 🎯 5 questions

Declaration officielle

Google n'a jamais supporté la directive 'crawl-delay' dans le fichier robots.txt en raison de sa non-fiabilité. Les webmasters peuvent toutefois régler le taux de crawl dans Google Search Console.

5:17

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 1h04 💬 EN 📅 09/05/2014 ✂ 25 déclarations

Voir sur YouTube (5:17) →

✂ Autres déclarations de cette vidéo 24 ▾

📅

Declaration officielle du 9 mai 2014 (il y a 12 ans)

⚠ Une declaration plus recente existe sur ce sujet Googlebot ignore-t-il vraiment la directive crawl-delay dans votre robots.txt ? Google · 21 decembre 2017 Voir la declaration →

TL;DR

Google n'a jamais supporté la directive crawl-delay dans robots.txt, la jugeant non fiable pour contrôler le taux de crawl. Les webmasters doivent utiliser Google Search Console pour régler la vitesse d'exploration, et non le fichier robots.txt. Cette position tranche avec d'autres moteurs comme Bing qui respectent cette directive.

Ce qu'il faut comprendre

Qu'est-ce que la directive crawl-delay et pourquoi existe-t-elle ?

La directive crawl-delay permet théoriquement de définir un délai minimum entre deux requêtes consécutives d'un robot d'indexation. Elle s'inscrit dans le fichier robots.txt avec une syntaxe simple : Crawl-delay: 10 indique au bot d'attendre 10 secondes entre chaque page crawlée.

Cette directive a été créée pour protéger les serveurs peu puissants d'un afflux trop massif de requêtes. Un petit site hébergé sur une infrastructure limitée peut rapidement saturer si Googlebot crawle 100 pages par seconde. Certains moteurs comme Bing ou Yandex ont adopté cette directive, mais Google a toujours refusé de la prendre en compte.

Pourquoi Google ne supporte-t-il pas crawl-delay ?

Google considère cette directive comme trop rigide et imprécise. Un délai uniforme ne tient pas compte de la réalité technique d'un site : certaines pages sont légères et rapides à servir, d'autres lourdes et coûteuses en ressources serveur. Appliquer le même délai partout manque de granularité.

Google préfère un système adaptatif qui analyse en temps réel la capacité du serveur à répondre. Si le serveur répond rapidement avec des codes 200, Googlebot accélère. Si des erreurs 503 ou des timeouts apparaissent, il ralentit automatiquement. Cette approche dynamique serait plus intelligente qu'un délai statique défini dans robots.txt.

Comment Google gère-t-il réellement son taux de crawl ?

Le moteur utilise plusieurs signaux pour ajuster automatiquement son crawl budget. La vitesse de réponse du serveur, les codes d'erreur, les timeouts, et même les signaux de performance infrastructure entrent en ligne de compte. Googlebot ralentit s'il détecte que le serveur souffre.

Les webmasters disposent d'un outil dans Google Search Console pour limiter le taux de crawl maximum. Cette option se trouve dans les anciens paramètres de crawl (bien que Google ait récemment simplifié cette interface). Le réglage permet de plafonner la fréquence, mais pas de la forcer à la hausse.

Google n'a jamais supporté crawl-delay et ne le fera probablement jamais
Utiliser Google Search Console pour contrôler le taux de crawl, pas robots.txt
Googlebot s'adapte automatiquement selon la capacité de réponse du serveur
D'autres moteurs comme Bing et Yandex respectent crawl-delay, créant une incohérence entre bots
Un délai statique ne convient pas à la logique adaptative de Google

Avis d'un expert SEO

Cette position est-elle cohérente avec les pratiques terrain ?

Sur le papier, l'argument de Google tient la route. Un système adaptatif qui ralentit automatiquement quand le serveur montre des signes de faiblesse semble plus intelligent qu'un délai fixe. Le problème : les webmasters manquent de visibilité sur ce mécanisme.

Dans la réalité, on observe régulièrement des cas où Googlebot martèle un serveur au-delà de sa capacité, provoquant des pics de charge et des erreurs 503. Le bot ralentit effectivement après coup, mais le mal est fait. [A vérifier] : Google affirme que son système anticipe ces problèmes, mais les logs serveur racontent parfois une autre histoire.

Quels sont les angles morts de cette déclaration ?

Google ne précise pas comment il mesure la capacité serveur. S'appuie-t-il uniquement sur les codes HTTP et les temps de réponse ? Prend-il en compte la charge CPU côté serveur ? Cette opacité frustre les professionnels qui aimeraient optimiser leur infrastructure en conséquence.

Autre point : la recommandation d'utiliser Search Console suppose que tous les sites y ont accès. Les CDN, les sites multi-domaines complexes, ou certaines architectures techniques rendent ce pilotage plus délicat qu'il n'y paraît. Par ailleurs, le réglage dans GSC ne permet que de limiter le crawl, jamais de l'accélérer.

Faut-il quand même utiliser crawl-delay pour les autres bots ?

Oui, et c'est là que la position de Google crée une incohérence pratique. Bing, Yandex, et une multitude de bots tiers respectent cette directive. Un site qui reçoit du trafic non-Google (et ils sont nombreux) a tout intérêt à définir crawl-delay pour protéger son infrastructure.

Certains webmasters définissent des règles différentes par user-agent : un crawl-delay pour Bingbot, rien pour Googlebot. Cette approche fonctionne, mais elle complexifie la maintenance du robots.txt. L'idéal serait un standard universel, mais on en est loin.

Attention : Si votre serveur montre des signes de surcharge lors des pics de crawl Google, ne comptez pas sur crawl-delay. Contactez directement le support Search Console pour signaler le problème, ou optimisez votre infrastructure pour encaisser la charge.

Impact pratique et recommandations

Que faut-il faire concrètement pour contrôler le taux de crawl Google ?

Oubliez la directive crawl-delay dans robots.txt pour Googlebot. Elle sera simplement ignorée. Concentrez-vous sur Google Search Console, section « Paramètres de crawl » (ou « Crawl stats » selon la version de l'interface). Vous y trouverez les statistiques d'exploration et, dans certains cas, l'option de limiter le taux.

Surveillez vos logs serveur pour identifier les patterns de crawl excessif. Si vous détectez des pics qui saturent votre infrastructure, limitez temporairement le taux via GSC. Gardez en tête que cette limitation ralentit l'indexation de nouvelles pages : c'est un arbitrage à faire entre performance serveur et fraîcheur d'indexation.

Comment optimiser son infrastructure pour supporter le crawl Google ?

La vraie solution long terme n'est pas de brider Googlebot, mais de rendre votre site capable d'encaisser la charge. Mettez en place un CDN pour servir les ressources statiques, optimisez les requêtes base de données, utilisez du caching agressif pour les pages HTML.

Côté architecture, isolez les pages à forte valeur SEO des sections peu importantes. Utilisez robots.txt pour bloquer les sections inutiles (facettes infinies, paramètres d'URL redondants, back-office). Moins Googlebot perd de temps sur du contenu sans valeur, plus il crawle efficacement ce qui compte.

Quelles erreurs éviter absolument ?

Ne définissez pas un crawl-delay trop agressif en pensant que Google le respectera : il l'ignorera, mais vous pénaliserez Bing et les autres bots. Ne confondez pas limitation du taux de crawl et blocage d'URL : robots.txt reste l'outil pour interdire l'accès à certaines sections, pas pour ralentir le bot.

Évitez également de brider le crawl par défaut dans GSC sans raison valable. Si votre serveur encaisse sans problème, laissez Google explorer à son rythme naturel. Un crawl budget optimal accélère l'indexation de vos mises à jour et améliore votre réactivité SEO.

Supprimer toute directive crawl-delay pour Googlebot dans robots.txt (elle est ignorée)
Utiliser Google Search Console pour limiter le taux de crawl si nécessaire
Analyser les logs serveur pour détecter les pics de crawl problématiques
Mettre en place un CDN et du caching pour supporter la charge
Bloquer via robots.txt les sections sans valeur SEO (facettes, paramètres redondants)
Conserver crawl-delay pour les autres moteurs (Bing, Yandex) si pertinent

Contrôler le taux de crawl Google nécessite une approche différente des standards robots.txt classiques. Privilégiez l'optimisation infrastructure et les réglages dans Search Console. Ces optimisations techniques peuvent s'avérer complexes à orchestrer, surtout sur des sites à fort trafic ou des architectures distribuées. Si vous manquez de ressources internes ou de visibilité sur votre crawl budget, une agence SEO spécialisée saura auditer vos logs, identifier les goulots d'étranglement et implémenter les correctifs adaptés à votre contexte technique.

❓ Questions frequentes

Google va-t-il un jour supporter la directive crawl-delay ?

Peu probable. Google a toujours privilégié son système adaptatif et considère crawl-delay comme trop rigide. La position officielle n'a pas évolué depuis des années.

Dois-je retirer crawl-delay de mon robots.txt ?

Pas nécessairement. Si d'autres moteurs comme Bing ou Yandex crawlent votre site, cette directive reste utile pour eux. Google l'ignorera simplement.

Comment savoir si Googlebot surcharge mon serveur ?

Analysez vos logs serveur pour identifier les pics de requêtes Googlebot corrélés à des ralentissements ou erreurs 503. Les statistiques de crawl dans Search Console donnent aussi des indices.

Puis-je forcer Google à crawler plus rapidement via Search Console ?

Non. Search Console permet uniquement de limiter le taux de crawl, pas de l'accélérer. Google détermine lui-même la fréquence optimale selon la popularité et la fraîcheur de votre contenu.

Quel délai crawl-delay définir pour Bing ?

Cela dépend de votre infrastructure. Un délai de 1 à 5 secondes est raisonnable pour la plupart des sites. Testez et ajustez selon les performances serveur observées dans vos logs.

🏷 Sujets associes

crawl budget robots.txt Googlebot indexation Search Console taux crawl logs serveur infrastructure SEO

Crawl & Indexation IA & SEO PDF & Fichiers Search Console

🎥 De la même vidéo 24

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 1h04 · publiée le 09/05/2014

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Mise en œuvre de sanctions sur les contenus dupliq...

Support de la directive 'crawl-delay' par Google...

« Retour aux resultats