Le crawl budget se résume-t-il vraiment à la somme de deux variables simples ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Le crawl budget se compose de deux éléments : le crawl rate (vitesse à laquelle Google peut crawler sans surcharger le serveur) et le crawl demand (fréquence de crawl basée sur la fréquence de changement du contenu et non sur sa qualité).

1:37

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 18:56 💬 EN 📅 14/07/2020 ✂ 7 déclarations

Voir sur YouTube (1:37) →

✂ Autres déclarations de cette vidéo 6 ▾

📅

Declaration officielle du 14 juillet 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Le crawl du Merchant Center compte-t-il dans votre crawl budget SEO ? John Mueller · 30 avril 2024 Voir la declaration →

TL;DR

Google décompose le crawl budget en deux composantes distinctes : le crawl rate (capacité technique du serveur à encaisser les requêtes de Googlebot) et le crawl demand (fréquence à laquelle Google souhaite crawler en fonction de la fraîcheur du contenu). Cette distinction implique qu'améliorer uniquement la performance technique ne suffit pas : il faut aussi justifier la fréquence de crawl par une mise à jour régulière des pages. La qualité du contenu n'entre pas directement dans l'équation, ce qui soulève des questions sur l'arbitrage entre quantité et pertinence.

Ce qu'il faut comprendre

Pourquoi Google sépare-t-il crawl rate et crawl demand au lieu de parler d'un seul budget global ?

Cette distinction n'est pas anodine. Le crawl rate représente la contrainte technique pure : combien de requêtes ton serveur peut-il absorber sans ralentir, crasher ou dégrader l'expérience utilisateur ? Google ajuste cette limite en continu, parfois plusieurs fois par jour, en fonction des signaux de santé serveur.

Le crawl demand fonctionne sur une logique totalement différente. Il s'agit de la fréquence à laquelle Google estime utile de revenir crawler tes pages. Cette estimation repose sur l'historique de mise à jour : une page modifiée quotidiennement sera crawlée plus souvent qu'une page statique. Contrairement à ce qu'on pourrait croire, la qualité intrinsèque du contenu n'entre pas dans ce calcul. Une page médiocre mais fréquemment mise à jour peut théoriquement bénéficier d'un crawl demand élevé.

Qu'est-ce qui limite concrètement le crawl budget dans cette équation ?

Le facteur limitant n'est pas forcément celui qu'on croit. Sur un site avec une infrastructure robuste (CDN, serveurs dimensionnés, cache optimisé), le crawl rate n'est rarement le goulot. Dans ce cas, c'est le crawl demand qui plafonne : si tes pages changent peu, Google ne viendra pas plus souvent même si ton serveur pourrait encaisser 10x plus de requêtes.

À l'inverse, sur un site techniquement fragile (temps de réponse > 500ms, erreurs 5xx fréquentes), Google réduit volontairement le crawl rate pour ne pas aggraver la situation. Résultat : même si tes pages changent tous les jours, Googlebot restera sage. C'est un cercle vicieux qu'on observe régulièrement sur des sites e-commerce mal optimisés.

Comment mesurer ces deux composantes sur mon site ?

La Search Console te donne des indices indirects mais pas les chiffres bruts. Le rapport "Statistiques sur l'exploration" affiche le nombre de requêtes par jour, les temps de réponse moyens, et les erreurs de crawl. En croisant ces données avec les logs serveur, tu peux identifier si c'est le rate ou le demand qui bride ton budget.

Concrètement : si tu vois un crawl stable à 1000 pages/jour avec des temps de réponse à 50ms et zéro erreur, ton serveur pourrait clairement en prendre plus. C'est donc le demand qui limite. Si au contraire tu observes des pics d'erreurs ou des temps de réponse qui grimpent à 800ms lors des pics de crawl, c'est le rate qui coince.

Crawl rate : contrôlé par les performances serveur, ajustable en temps réel par Google, indicateur clé = temps de réponse et taux d'erreurs 5xx
Crawl demand : piloté par la fréquence de mise à jour du contenu, pas par sa qualité, observable via la récurrence des crawls dans les logs
Le budget global est toujours le minimum des deux : améliorer un seul levier ne suffit jamais
Les logs serveur restent l'outil principal pour diagnostiquer le facteur limitant réel
Google peut réduire volontairement le crawl même si ton infrastructure le permet, si le demand est faible

Avis d'un expert SEO

Cette décomposition en deux variables reflète-t-elle vraiment la complexité du crawl ?

Disons-le franchement : c'est une simplification. Sur le terrain, on observe des dizaines de facteurs qui influencent le budget de crawl au-delà de ces deux axes. La profondeur des pages dans l'arborescence, la qualité du maillage interne, la présence de duplicate content, le nombre d'URL en soft 404, la vitesse d'indexation des nouveaux contenus… tout ça joue.

La déclaration de Splitt a le mérite de poser un cadre conceptuel clair. Mais elle masque une réalité : Google ne communique jamais les poids relatifs de chaque signal ni les seuils exacts qui déclenchent une réduction du crawl. Résultat, tu optimises à l'aveugle en espérant que tes ajustements tombent dans les bonnes cases de l'algorithme. [À vérifier] : l'impact exact de la fraîcheur du contenu sur le crawl demand reste flou — certains sites avec peu de mises à jour bénéficient d'un crawl soutenu, d'autres non.

La qualité du contenu n'intervient-elle vraiment pas dans l'équation ?

C'est le point le plus contestable de cette déclaration. Google affirme que le crawl demand se base sur la fréquence de changement, pas sur la qualité. Soit. Mais dans la pratique, on observe que les sites avec du contenu thin, dupliqué ou de faible valeur se retrouvent crawlés moins intensivement même quand ils publient régulièrement.

L'hypothèse la plus plausible : la qualité n'impacte pas directement le demand, mais influence d'autres signaux qui eux-mêmes réduisent le crawl. Par exemple, un contenu médiocre génère moins de liens internes pertinents, donc moins de chemins pour Googlebot. Ou bien il finit désindexé via les mécanismes de qualité (Helpful Content, Panda legacy), ce qui réduit mécaniquement le nombre d'URL à crawler. Bref, la qualité joue, mais de manière indirecte et non avouée.

Attention : ne prends pas cette déclaration comme un feu vert pour publier en masse sans te soucier de la pertinence. Les signaux qualité finiront par impacter ton crawl via d'autres canaux (désindexation, perte de PageRank interne, etc.).

Quels sont les cas limites où cette règle ne tient plus ?

Sur les très gros sites (plusieurs millions d'URL), le crawl budget devient un jeu de priorités complexe. Google ne crawle jamais l'intégralité du site, même si techniquement il pourrait. Dans ces contextes, des facteurs non mentionnés par Splitt entrent en jeu : la popularité relative des sections (mesurée via les logs de recherche interne ?), la vélocité des clics depuis la SERP, la fraîcheur attendue par segment thématique.

Autre cas limite : les sites sous pénalité algorithmique ou manuelle. Le crawl peut chuter brutalement indépendamment du rate ou du demand. C'est un levier de sanction rarement documenté mais observable dans les logs : Google réduit volontairement le budget pour limiter la visibilité d'un site problématique, même si celui-ci publie activement et dispose d'une infra solide.

Impact pratique et recommandations

Que faut-il optimiser en priorité sur mon site ?

Commence par identifier le goulot. Installe un parser de logs (Oncrawl, Botify, Screaming Frog Log Analyzer ou même un script Python maison) et croise avec les données Search Console. Si tes temps de réponse sont > 300ms ou si tu vois des erreurs 5xx lors des pics de crawl, c'est le crawl rate qu'il faut adresser en priorité.

Si au contraire ton infrastructure est au vert mais que Googlebot ne passe que sur 20% de tes pages par mois, c'est un problème de crawl demand. Dans ce cas, la solution n'est pas technique mais éditoriale : augmenter la fréquence de mise à jour des pages stratégiques, améliorer le maillage interne pour redistribuer le PageRank, ou encore nettoyer les URL zombies qui consomment du budget sans valeur.

Quelles erreurs éviter pour ne pas saboter son crawl budget ?

La pire erreur : gaspiller du budget sur des URL inutiles. Les facettes infinies, les pages de pagination crawlables, les paramètres d'URL en doublon, les soft 404 qui retournent du 200… tout ça consomme ton crédit sans rien apporter. Google crawlera 10 000 pages de filtres vides pendant que tes fiches produits stratégiques attendront leur tour.

Autre piège fréquent : bloquer les URL dans le robots.txt sans les désindexer proprement. Résultat, Google continue de crawler ces URL pour vérifier leur statut d'accessibilité, ce qui bouffe du budget pour rien. La bonne approche : désindexer via noindex + meta robots, laisser crawler une dernière fois, puis seulement après bloquer dans le robots.txt si nécessaire.

Comment piloter activement son crawl budget dans la durée ?

Le crawl budget n'est pas un paramètre qu'on optimise une fois puis qu'on oublie. C'est un indicateur de santé à monitorer en continu. Mets en place des alertes sur les métriques clés : chute soudaine du nombre de pages crawlées par jour, augmentation des temps de réponse pendant les pics, explosion des erreurs 5xx.

Ensuite, adopte une logique de priorisation éditoriale. Concentre les mises à jour régulières sur les pages à forte valeur stratégique (celles qui génèrent du trafic ou des conversions). Laisse les contenus evergreen stables si leur performance est déjà optimale. Cette approche envoie des signaux clairs à Google sur ce qui mérite d'être crawlé fréquemment.

Analyser les logs serveur mensuellement pour identifier le facteur limitant (rate vs. demand)
Optimiser les temps de réponse serveur en dessous de 200ms sur les pages prioritaires
Nettoyer les URL inutiles : facettes, paramètres, soft 404, duplicate content
Améliorer le maillage interne pour pousser le PageRank vers les pages stratégiques
Publier des mises à jour régulières (même mineures) sur les pages clés pour maintenir un demand élevé
Éviter de bloquer dans robots.txt des URL encore indexées : désindexer d'abord via noindex

Le crawl budget résulte d'un équilibre entre contraintes techniques (ce que ton serveur encaisse) et signaux éditoriaux (ce qui justifie un crawl fréquent). Optimiser l'un sans l'autre ne donne que des résultats partiels. Ces arbitrages sont souvent complexes à piloter seul, surtout sur des sites de plusieurs dizaines de milliers de pages. Si tu manques de temps ou d'expertise pour diagnostiquer finement ces mécanismes, envisage de t'appuyer sur une agence SEO spécialisée qui pourra auditer tes logs, identifier les leviers prioritaires et déployer une stratégie de crawl budget adaptée à ta réalité technique et éditoriale.

❓ Questions frequentes

Le crawl rate peut-il être augmenté manuellement dans la Search Console ?

Non, Google a supprimé cette option. Le crawl rate est désormais ajusté automatiquement en fonction des performances serveur observées. Tu ne peux l'influencer qu'indirectement en optimisant tes temps de réponse.

Une page jamais mise à jour peut-elle quand même être crawlée régulièrement ?

Oui, si elle reçoit beaucoup de liens internes ou externes, ou si elle génère du trafic organique régulier. Le crawl demand prend en compte la fraîcheur mais aussi la popularité relative de la page dans le graphe du site.

Faut-il mettre à jour artificiellement des pages stables pour booster le crawl demand ?

Non, c'est contre-productif. Google détecte les modifications cosmétiques (changement de date, ajout d'un mot sans valeur). Seules les mises à jour substantielles (ajout de contenu, données fraîches, nouveaux médias) influencent réellement le demand.

Le crawl budget s'applique-t-il aux petits sites de moins de 1000 pages ?

Rarement. Sur les petits sites bien structurés, Google crawle généralement l'intégralité du contenu sans contrainte. Le crawl budget devient un enjeu à partir de plusieurs dizaines de milliers d'URL ou sur des infrastructures fragiles.

Les erreurs 404 consomment-elles du crawl budget inutilement ?

Oui, si Google continue de les découvrir via des liens internes ou externes. Une fois qu'une 404 est connue et validée, Google réduit sa fréquence de recrawl. L'important est de nettoyer les liens pointant vers ces erreurs pour éviter qu'elles soient rampées en boucle.

🏷 Sujets associes

crawl budget crawl rate crawl demand Googlebot indexation logs serveur Search Console budget exploration

Contenu Crawl & Indexation Performance Web

🎥 De la même vidéo 6

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 18 min · publiée le 14/07/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Le crawl budget n'est pas contrôlable à la hausse ...

Le crawl budget concerne uniquement les très gros ...

« Retour aux resultats