Declaration officielle
Google confirme que Googlebot ne tient pas compte de la directive crawl-delay dans le fichier robots.txt, la jugeant obsolète pour les serveurs modernes. À la place, le crawler ajuste automatiquement sa fréquence en fonction de la réactivité du serveur. Concrètement, si votre serveur montre des signes de surcharge, Googlebot ralentit de lui-même sans intervention manuelle de votre part.
Ce qu'il faut comprendre
Pourquoi Google abandonne-t-il cette directive ?
La directive crawl-delay permettait historiquement aux webmasters de définir un délai minimum entre deux requêtes du crawler. Google considère ce mécanisme comme inadapté aux infrastructures actuelles.
Les serveurs modernes gèrent désormais des milliers de requêtes simultanées sans broncher. Imposer une pause fixe de plusieurs secondes entre chaque crawl relève d'une logique héritée des années 2000, quand un serveur Apache mal configuré pouvait tomber sous la charge d'un robot trop agressif.
Comment Googlebot adapte-t-il sa vitesse de crawl ?
Le crawler surveille en permanence les temps de réponse et les codes d'erreur (503, timeout). Quand le serveur peine à répondre, Googlebot réduit automatiquement le nombre de connexions parallèles et l'intervalle entre les requêtes.
Ce système réactif se base sur des signaux en temps réel plutôt que sur une consigne statique. Si votre serveur répond en 50ms, Googlebot accélère. Si les réponses mettent 3 secondes, il freine.
Cette déclaration signifie-t-elle que robots.txt devient obsolète ?
Pas du tout. Google respecte toujours les directives Disallow et Allow, qui définissent ce qui peut être crawlé. La directive crawl-delay était une extension non-standard, utilisée principalement par Bing et d'autres moteurs mineurs.
Googlebot a toujours privilégié sa propre logique d'ajustement plutôt que cette directive. Cette clarification officielle enterre simplement un mythe tenace selon lequel ajouter crawl-delay dans robots.txt permettrait de contrôler la charge serveur côté Google.
- Googlebot ignore crawl-delay car l'ajustement automatique est plus performant que les consignes statiques
- Le crawler surveille réactivité serveur et codes erreur pour adapter sa fréquence en temps réel
- Les directives Disallow et Allow restent pleinement respectées et essentielles
- Cette position ne concerne que Google — Bing et d'autres moteurs continuent d'honorer crawl-delay
Avis d'un expert SEO
Cette déclaration est-elle cohérente avec les observations terrain ?
Complètement. Les professionnels SEO savent depuis des années que crawl-delay n'a aucun effet sur Googlebot. Les tests en conditions réelles montrent que Google crawle au rythme qu'il juge optimal, peu importe la valeur indiquée.
Ce qui fonctionne réellement pour contrôler la charge, c'est la Search Console : l'option de réglage du taux de crawl permet de plafonner la fréquence manuellement. Mais Google a retiré cette fonctionnalité pour la plupart des sites, estimant que son algorithme fait mieux le travail.
Quelles nuances faut-il apporter à cette position ?
Google affirme que les serveurs modernes encaissent sans problème. C'est vrai pour l'infrastructure cloud récente, mais faux pour les sites hébergés sur des serveurs partagés bas de gamme ou des CMS mal optimisés.
Un WordPress avec 40 plugins actifs et une base de données non indexée peut crever sous 10 requêtes par seconde, même sur un serveur récent. [A vérifier] : Google prétend adapter sa fréquence aux signes de surcharge, mais les webmasters de sites sous-équipés rapportent régulièrement des crawls agressifs provoquant des 503.
Que faire si Googlebot surcharge quand même votre serveur ?
Première étape : vérifier les logs serveur pour identifier les URLs qui déclenchent des temps de réponse longs. Souvent, le problème vient de pages générées dynamiquement avec des requêtes SQL lourdes.
Ensuite, bloquer les sections inutiles dans robots.txt (facettes de filtres, URLs avec paramètres infinis). Si le problème persiste, envisager un CDN avec cache intelligent qui servira les versions statiques à Googlebot. En dernier recours, contacter le support Search Console pour signaler un crawl anormalement agressif — mais les réponses sont souvent des copier-coller généralistes.
Impact pratique et recommandations
Faut-il retirer crawl-delay de son robots.txt ?
Non, sauf si vous n'avez aucun autre moteur que Google qui compte. Bing, Yandex et la plupart des crawlers alternatifs respectent encore cette directive. La retirer risque de surcharger votre serveur avec ces bots tiers.
Gardez la directive si votre trafic SEO provient en partie de Bing ou si des crawlers de scraping commercial frappent régulièrement votre site. Pour Google spécifiquement, la ligne est simplement ignorée.
Comment vérifier que Googlebot n'impacte pas vos performances ?
Analysez vos logs serveur en croisant les timestamps des requêtes Googlebot avec vos métriques de charge (CPU, temps de réponse). Si vous constatez des pics de latence corrélés aux passages du crawler, c'est un signal clair.
La Search Console affiche aussi les statistiques d'exploration : nombre de pages crawlées par jour, temps de téléchargement moyen, codes de réponse. Un temps moyen supérieur à 500ms indique que votre serveur peine.
Quelles actions concrètes mettre en place ?
Optimisez d'abord les temps de génération des pages : cache objet, optimisation SQL, lazy loading des ressources lourdes. Ensuite, nettoyez votre architecture d'URLs pour éviter que Googlebot ne perde du temps sur des pages dupliquées ou sans valeur.
Si votre site génère des milliers de pages filtrées ou paginées, utilisez robots.txt et noindex stratégiques pour canaliser le crawl budget vers le contenu prioritaire. Un sitemap XML bien structuré aide aussi Googlebot à concentrer ses efforts intelligemment.
- Conserver crawl-delay si vous ciblez Bing ou d'autres moteurs que Google
- Monitorer régulièrement les statistiques d'exploration dans Search Console
- Bloquer les sections inutiles (facettes, URLs à paramètres) dans robots.txt
- Optimiser les temps de réponse serveur sous 300ms pour les pages stratégiques
- Mettre en cache les pages fréquemment crawlées avec un CDN ou cache serveur
- Analyser les logs pour détecter les corrélations entre crawl et surcharge
❓ Questions frequentes
Est-ce que Bing respecte la directive crawl-delay ?
Comment Google adapte-t-il sa fréquence de crawl concrètement ?
Peut-on encore limiter manuellement le taux de crawl dans Search Console ?
Que faire si Googlebot provoque des erreurs 503 répétées ?
Faut-il supprimer crawl-delay pour accélérer l'indexation par Google ?
🎥 De la même vidéo 3
Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 1 min · publiée le 21/12/2017
🎥 Voir la vidéo complète sur YouTube →
💬 Commentaires (0)
Soyez le premier à commenter.