Pourquoi une chute brutale des requêtes de crawl peut-elle révéler un problème de robots.txt ou de temps de réponse ?

Declaration officielle

Si vous constatez une baisse significative du nombre total de requêtes de crawl, assurez-vous que personne n'a ajouté un nouveau fichier robots.txt à votre site, ou que votre site ne répond pas lentement à Googlebot.

82:21

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 161h29 💬 EN 📅 03/03/2021 ✂ 14 déclarations

Voir sur YouTube (82:21) →

✂ Autres déclarations de cette vidéo 13 ▾

9:53 Le budget de crawl est-il vraiment inutile pour les petits sites ?
15:14 Comment Google décide-t-il quelles pages crawler en priorité sur votre site ?
25:55 Qu'est-ce que la demande de crawl et comment Google la calcule-t-il vraiment ?
33:45 Comment Google calcule-t-il le taux de crawl pour ne pas planter vos serveurs ?
37:38 Le crawl budget augmente-t-il vraiment avec la vitesse de votre serveur ?
41:11 Pourquoi un site lent tue-t-il votre taux de crawl Google ?
43:17 Peut-on vraiment limiter le taux de crawl de Google sans risquer son référencement ?
46:04 Le budget de crawl, simple combinaison de taux et de demande ?
61:43 Pourquoi Google réserve-t-il le rapport Crawl Stats aux propriétés de domaine uniquement ?
69:24 Les ressources externes faussent-elles vos statistiques de crawl ?
77:09 Le temps de réponse exclut-il vraiment le rendu de page dans Search Console ?
87:00 Le temps de réponse serveur influence-t-il vraiment le taux de crawl de Googlebot ?
101:16 Pourquoi un code 503 sur robots.txt peut-il bloquer tout le crawl de votre site ?

Ce qu'il faut comprendre

Qu'est-ce qu'une chute significative des requêtes de crawl ?

Dans la Search Console, le rapport "Statistiques sur l'exploration" affiche le nombre de requêtes que Googlebot adresse quotidiennement à votre site. Une chute significative, c'est une baisse d'au moins 30-40 % sur plusieurs jours consécutifs, sans reprise rapide.

Ce volume de crawl reflète l'appétit de Google pour vos contenus — mais aussi la capacité de votre serveur à répondre. Une chute brutale signale donc soit que Google a décidé de moins explorer votre site (mauvais signal), soit que quelque chose l'en empêche techniquement (erreur de config).

Pourquoi robots.txt est-il le premier suspect ?

Le fichier robots.txt est souvent modifié lors de déploiements, migrations ou refontes. Une directive "Disallow" trop large, ajoutée par erreur ou par méconnaissance, peut bloquer des pans entiers du site.

Google voit immédiatement ce fichier avant chaque crawl. Si un nouveau robots.txt bloque des répertoires précédemment explorés, le volume de requêtes chute mécaniquement. Sauf que cette erreur passe souvent inaperçue côté équipe, car le site reste accessible aux visiteurs humains.

En quoi le temps de réponse joue-t-il un rôle ?

Si votre serveur met plusieurs secondes à répondre à Googlebot, Google adapte automatiquement le crawl rate pour éviter de surcharger votre infrastructure. C'est un mécanisme de protection — mais aussi une pénalité indirecte.

Des temps de réponse dégradés (supérieurs à 500-800 ms en moyenne) peuvent provenir d'un pic de trafic, d'une ressource back-end saturée ou d'une mauvaise configuration du cache. Google interprète cela comme un signal de fragilité et réduit la fréquence d'exploration pour ne pas aggraver la situation.

Robots.txt mal configuré : bloque des URLs précédemment crawlées, chute immédiate du volume.
Temps de réponse élevé : Google ralentit volontairement le crawl pour préserver la stabilité du serveur.
Surveillance croisée : toujours corréler les baisses de crawl avec l'historique des déploiements et les logs serveur.
Délai de détection : une erreur robots.txt peut passer inaperçue pendant 48-72 h si personne ne surveille activement la Search Console.
Impact SEO : moins de crawl = moins de pages indexées ou mises à jour, donc potentiellement moins de visibilité.

Avis d'un expert SEO

Cette recommandation couvre-t-elle tous les cas de chute de crawl ?

Non. Google pointe ici les deux causes les plus fréquentes — celles qui relèvent d'une erreur humaine ou d'un problème technique évident. Mais une baisse de crawl peut aussi résulter d'une perte de popularité du site (moins de backlinks, moins de fraîcheur éditoriale), d'une désindexation partielle volontaire (meta robots noindex ajouté), ou d'un algorithme Google qui réévalue la priorité du site.

Autrement dit, si robots.txt et temps de réponse sont irréprochables, il faut creuser plus loin : qualité des contenus récents, évolution du profil de liens, concurrence accrue sur les mots-clés ciblés. [À vérifier] : Google ne documente jamais publiquement les seuils exacts de temps de réponse qui déclenchent une réduction de crawl — les 500-800 ms sont une estimation terrain.

Pourquoi Google ne notifie-t-il pas automatiquement ces erreurs ?

Techniquement, Google envoie parfois des alertes Search Console en cas d'erreur robots.txt bloquant tout le site (Disallow: /). Mais pour des blocages partiels ou des ralentissements progressifs, aucune notification systématique n'existe.

La raison ? Google ne peut pas distinguer facilement une erreur involontaire d'un choix délibéré. Si vous bloquez un répertoire /admin/ ou /staging/, c'est légitime. Si vous bloquez /blog/ par accident, Google ne sait pas que c'est une erreur. D'où l'importance de surveiller proactivement le rapport Statistiques sur l'exploration et de documenter chaque modification de robots.txt.

Quelle est la réactivité réelle de Google face à une correction ?

Une fois le fichier robots.txt corrigé, Googlebot le relit généralement sous 24-48 h. Le volume de crawl ne repart pas instantanément : il faut compter 3 à 7 jours pour retrouver un niveau normal, car Google augmente progressivement le crawl rate pour vérifier que le serveur tient la charge.

Pour les temps de réponse, c'est plus variable. Si vous optimisez le serveur et que les temps passent de 2 s à 300 ms, Google va tester prudemment — comptez 5 à 10 jours pour un retour à la normale. Aucune garantie de délai : Google adapte son comportement en fonction de l'historique de fiabilité du site.

Attention : si la chute de crawl coïncide avec une migration HTTPS, un changement de domaine ou une refonte, le problème peut être multifactoriel (redirections mal gérées, nouvelles URLs non découvertes). Ne vous arrêtez jamais à robots.txt et temps de réponse dans ces contextes.

Impact pratique et recommandations

Comment diagnostiquer rapidement la cause de la chute ?

Première étape : ouvrez la Search Console, onglet "Statistiques sur l'exploration". Observez le graphique du nombre total de requêtes sur 90 jours. Si la chute coïncide avec une date précise, recoupez avec votre historique de déploiements Git ou vos tickets Jira.

Ensuite, testez votre robots.txt avec l'outil Testeur de robots.txt dans la Search Console. Collez quelques URLs stratégiques (page d'accueil, catégories principales, articles récents) et vérifiez qu'aucune n'est bloquée par erreur. Parallèlement, consultez vos logs serveur (Nginx, Apache, Cloudflare) pour identifier les temps de réponse moyens face à Googlebot.

Quelles erreurs robots.txt provoquent le plus de dégâts ?

Les pièges classiques : un Disallow: / oublié en production (copié-collé depuis un environnement de staging), un Disallow: /*? qui bloque toutes les URLs avec paramètres (bye-bye les facettes e-commerce), ou un Disallow: /*.pdf qui empêche l'indexation de vos livres blancs.

Autre cas vicieux : un robots.txt qui pointe vers un CDN défaillant. Si le fichier renvoie une 404 temporaire, Googlebot interprète cela comme "accès interdit" et réduit le crawl. Vérifiez toujours que robots.txt est servi directement par votre serveur d'origine, pas via un proxy qui peut flancher.

Comment surveiller et prévenir ces incidents à l'avenir ?

Mettez en place une alerte automatique dans la Search Console dès que le crawl baisse de plus de 25 % sur 3 jours glissants. Intégrez le fichier robots.txt dans votre pipeline CI/CD avec un test unitaire qui valide qu'aucune directive Disallow critique n'est ajoutée.

Côté performance serveur, configurez un monitoring temps réel (New Relic, Datadog, ou Google Analytics Server-Timing) avec alerte si le temps de réponse dépasse 800 ms pendant plus de 10 minutes. Documentez chaque modification de robots.txt dans un changelog centralisé, accessible à toute l'équipe SEO et DevOps.

Vérifier robots.txt dans le Testeur Search Console après chaque déploiement
Consulter les logs serveur pour identifier les temps de réponse à Googlebot (user-agent contenant "Googlebot")
Comparer la date de chute de crawl avec l'historique des commits Git ou des déploiements
Tester manuellement quelques URLs stratégiques avec curl -A "Googlebot" pour simuler le comportement du bot
Configurer une alerte Search Console pour détecter automatiquement les baisses de crawl anormales
Documenter chaque modification de robots.txt dans un changelog partagé avec les équipes techniques

Une chute de crawl est rarement un hasard. Dans 70 % des cas terrain, elle résulte d'une erreur humaine (robots.txt modifié lors d'un déploiement) ou d'une dégradation performance (serveur sous-dimensionné, base de données lente). La clé : croiser systématiquement les données Search Console avec les logs serveur et l'historique des mises en production. Si ces diagnostics révèlent des configurations complexes — serveurs multi-CDN, architectures microservices, gestion fine du crawl budget sur des sites à forte volumétrie — il peut être judicieux de faire appel à une agence SEO spécialisée pour un accompagnement technique personnalisé et un audit approfondi de votre infrastructure.

❓ Questions frequentes

Combien de temps faut-il à Google pour recrawler normalement après correction d'un robots.txt bloquant ?

Google relit robots.txt sous 24-48 h, mais le volume de crawl remonte progressivement sur 3 à 7 jours. Google augmente prudemment le crawl rate pour vérifier la stabilité du serveur.

Un temps de réponse de 1 seconde est-il systématiquement pénalisant pour le crawl ?

Pas systématiquement, mais c'est un signal de fragilité. Google adapte le crawl rate en fonction de la capacité du serveur. En pratique, viser moins de 500 ms est optimal pour maximiser le budget de crawl.

Comment différencier une chute de crawl liée à robots.txt d'une chute liée à la qualité du contenu ?

Si robots.txt bloque des URLs, le rapport Search Console "Pages" montrera des URLs en "Bloquées par robots.txt". Si c'est un problème de qualité, le crawl baisse progressivement sans erreur technique associée.

Google envoie-t-il une notification Search Console en cas de robots.txt bloquant tout le site ?

Oui, si vous bloquez totalement le site avec Disallow: /, Google envoie généralement une alerte. Mais pour des blocages partiels, aucune notification systématique n'existe.

Peut-on forcer Google à recrawler immédiatement après une correction ?

Non. Vous pouvez demander une indexation manuelle pour quelques URLs via la Search Console, mais impossible de forcer une reprise globale du crawl. Google décide du rythme en fonction de son évaluation du site.

🎥 De la même vidéo 13

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 161h29 · publiée le 03/03/2021

🎥 Voir la vidéo complète sur YouTube →