Le crawl budget existe-t-il vraiment ou est-ce juste un mythe SEO ?

Declaration officielle

Le crawl budget est le nombre d'URLs que Googlebot peut et doit crawler. Les instructions proviennent du système de crawl scheduling qui estime quelles pages doivent être recrawlées et quelles sections nécessitent de la découverte.

16:09

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 31:53 💬 EN 📅 09/12/2020 ✂ 16 déclarations

Voir sur YouTube (16:09) →

✂ Autres déclarations de cette vidéo 15 ▾

2:49 Pourquoi Google rend-il quasi systématiquement vos pages avant de les indexer ?
3:52 Faut-il abandonner le modèle des deux vagues d'indexation ?
7:35 Google utilise-t-il une sandbox ou une période de lune de miel pour les nouveaux sites ?
8:02 Google devine-t-il vraiment où classer un nouveau site avant même d'avoir des données ?
9:07 Pourquoi les nouveaux sites connaissent-ils des montagnes russes dans les SERP ?
13:59 Faut-il vraiment se préoccuper du crawl budget pour son site ?
15:37 Faut-il vraiment s'inquiéter du crawl budget sous le million d'URLs ?
17:42 Google bride-t-il volontairement son crawl pour ménager vos serveurs ?
18:51 Googlebot peut-il vraiment arrêter de crawler votre site à cause de codes d'erreur serveur ?
20:24 Comment détecter un vrai problème de crawl budget sur votre site ?
21:57 Élaguer le contenu faible améliore-t-il vraiment le crawl budget ?
22:28 Faut-il sacrifier la vitesse serveur pour économiser du crawl budget ?
23:32 Pourquoi vos requêtes API explosent-elles votre crawl budget à votre insu ?
24:36 Le crawl budget : toutes vos URLs comptent-elles vraiment autant que Google l'affirme ?
25:39 Faut-il vraiment s'inquiéter du cache agressif de Googlebot sur vos ressources statiques ?

📅

Declaration officielle du 9 decembre 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Le crawl du Merchant Center compte-t-il dans votre crawl budget SEO ? John Mueller · 30 avril 2024 Voir la declaration →

TL;DR

Google définit le crawl budget comme le nombre d'URLs que Googlebot peut et doit crawler, déterminé par un système de planification interne. Cette limite n'est pas arbitraire : elle reflète à la fois la capacité technique de Google et l'estimation de ce qui mérite d'être recrawlé sur votre site. Pour les sites de moins de 10 000 pages en bonne santé technique, ce n'est généralement pas un souci — mais dès qu'on parle de sites e-commerce, d'agrégateurs ou de plateformes avec du contenu généré par les utilisateurs, ça devient un paramètre crucial à optimiser.

Ce qu'il faut comprendre

Googlebot a-t-il vraiment une limite de pages crawlées par site ?

Oui, et c'est ce que Google appelle le crawl budget. Contrairement à une idée reçue, Googlebot ne crawle pas tout, tout le temps. Il alloue des ressources limitées à chaque site, en fonction de critères techniques et qualitatifs.

Cette limite n'est pas fixe : elle varie selon la santé technique du site (vitesse de réponse serveur, taux d'erreurs), la popularité des pages (liens internes/externes, engagement utilisateur) et la fraîcheur perçue du contenu. Un site lent ou bourré d'erreurs 404 verra son budget amputé, tandis qu'un site rapide et pertinent bénéficiera d'un crawl plus généreux.

Comment Google décide-t-il quelles pages méritent d'être crawlées ?

Le système de crawl scheduling mentionné par Gary Illyes est le chef d'orchestre. Il évalue deux priorités : recrawler les pages déjà connues pour détecter les mises à jour, et découvrir de nouvelles sections ou contenus.

Concrètement ? Google analyse les signaux de fraîcheur (fréquence de modification historique, nouveaux backlinks, sitemap XML avec lastmod récent) et les indices de popularité (trafic organique, mentions externes, profondeur dans l'arborescence). Une page produit best-seller mise à jour quotidiennement aura la priorité sur une vieille page catégorie orpheline qui n'a pas bougé depuis trois ans.

Est-ce que tous les sites sont concernés par cette limitation ?

Non, et c'est là que beaucoup de SEO perdent du temps. Les petits sites (moins de 5 000 pages indexables) ne sont quasiment jamais impactés par une limite de crawl budget. Google peut se permettre de tout crawler régulièrement sans effort.

Le problème devient réel pour les gros sites (e-commerce avec filtres à facettes, portails d'annonces, forums, sites d'actualités), surtout si une partie significative des URLs générées n'apporte aucune valeur (pagination infinie, filtres dupliqués, archives sans trafic). Là, optimiser le crawl budget devient une priorité stratégique pour s'assurer que Googlebot crawle en priorité vos pages à fort ROI.

Le crawl budget n'est pas un quota fixe : il évolue selon les performances du site et les signaux de qualité.
Google privilégie les pages populaires et fraîches : maillage interne, backlinks et mises à jour régulières boostent la fréquence de recrawl.
Les petits sites peuvent ignorer ce concept : en dessous de 10 000 pages, le crawl budget est rarement un goulot d'étranglement.
L'optimisation technique est clé : vitesse serveur, taux d'erreurs et qualité du code impactent directement le budget alloué.
Le sitemap XML et robots.txt sont vos alliés : ils orientent Googlebot vers ce qui compte vraiment.

Avis d'un expert SEO

Cette définition reflète-t-elle vraiment ce qu'on observe sur le terrain ?

Globalement, oui. Les données des logs serveur confirment que Googlebot ajuste son comportement en fonction de la réactivité du site et de la valeur perçue des pages. Soyons honnêtes : les sites qui se plaignent de problèmes de crawl budget ont souvent des fondations techniques pourries — temps de réponse serveur à 2 secondes, 30% d'erreurs 5xx, des milliers de pages dupliquées ou de faible qualité.

Là où ça devient intéressant, c'est sur la notion de « doit crawler ». Google ne précise pas comment ce « doit » est calculé. Est-ce basé uniquement sur la fraîcheur historique ? Sur des signaux d'engagement utilisateur ? Sur l'importance estimée dans le graphe de liens ? [A vérifier] — Google reste volontairement flou sur la pondération exacte de ces critères.

Quelles nuances faut-il apporter à cette déclaration ?

Premier point : le crawl budget n'est pas synonyme d'indexation. Googlebot peut crawler une page sans jamais l'indexer si elle est jugée de faible qualité, dupliquée ou non pertinente. On voit régulièrement des sites avec 80% de leurs URLs crawlées mais seulement 30% indexées.

Deuxième nuance — et c'est là que ça coince pour beaucoup de sites e-commerce : les URLs à facettes (filtres, tri, pagination) consomment du crawl budget comme des URLs « normales ». Si vous générez 50 000 URLs de filtres pour 2 000 produits réels, vous gaspillez votre budget sur du contenu à faible valeur. Et Google ne vous fera pas de cadeau.

Dans quels cas cette approche montre-t-elle ses limites ?

Les sites d'actualité avec publication continue : Google a mis en place des mécanismes spécifiques (crawl accéléré pour les sitemaps News, priorisation des pages récentes) qui ne rentrent pas vraiment dans ce modèle standard de crawl scheduling. Idem pour les sites JavaScript lourds où Googlebot doit non seulement crawler mais aussi rendre et exécuter du JS — ce qui double la charge et réduit de facto le nombre de pages traitées.

Autre limite : les migrations de site. On observe régulièrement que Google continue de crawler massivement les anciennes URLs même après redirection 301, pendant des semaines voire des mois. Le système de scheduling devrait théoriquement comprendre rapidement que ces pages sont obsolètes, mais en pratique, ça prend du temps — parfois trop pour des sites avec des milliers de pages migrées.

Attention : Les outils Google (Search Console) ne donnent qu'une vue partielle du crawl réel. Les rapports d'exploration ne montrent qu'un échantillon, pas l'exhaustivité des passages de Googlebot. Pour une analyse précise, les logs serveur bruts restent indispensables.

Impact pratique et recommandations

Comment identifier si mon site souffre d'un problème de crawl budget ?

Première étape : analysez vos logs serveur sur 30 jours minimum. Combien d'URLs Googlebot visite-t-il par jour ? Compare ce chiffre au nombre total de pages indexables que tu veux pousser. Si Googlebot ne passe qu'une fois par mois sur tes pages stratégiques (produits phares, contenus éditoriaux récents), t'as un souci.

Deuxième indicateur : regarde le délai entre publication et indexation dans Search Console. Si tes nouvelles pages mettent plus de 7 jours à être découvertes alors qu'elles sont dans le sitemap et bien maillées, c'est un signal d'alerte. Un site en bonne santé voit ses pages prioritaires crawlées dans les 24-48h.

Quelles actions concrètes peuvent améliorer l'allocation de crawl budget ?

Nettoie impitoyablement les URLs inutiles. Bloque via robots.txt les filtres à facettes qui ne génèrent pas de trafic organique, les pages de pagination au-delà de la page 3, les archives datées, les pages de recherche interne. Chaque URL économisée libère du budget pour ce qui compte vraiment.

Améliore la vitesse de réponse serveur. Un TTFB (Time To First Byte) sous 200 ms permet à Googlebot de crawler 2-3 fois plus de pages dans le même laps de temps. Optimise ton hébergement, active la compression GZIP/Brotli, mets en cache agressivement ce qui peut l'être. Et surveille les erreurs 5xx — chaque erreur serveur fait baisser ton budget alloué.

Quelles erreurs éviter absolument dans la gestion du crawl budget ?

Ne bloque pas Googlebot sur des ressources critiques (CSS, JS essentiels au rendu) sous prétexte d'économiser du crawl. Google a besoin de ces fichiers pour comprendre ta page — les bloquer est contre-productif et peut nuire à ton indexation.

Autre erreur classique : générer des sitemaps XML obèses avec 50 000 URLs dont 80% sont des variations sans valeur. Ton sitemap doit être chirurgical : seulement les pages à forte valeur stratégique, avec des balises lastmod honnêtes (pas « aujourd'hui » sur toutes les URLs). Un sitemap gonflé dilue les signaux et rend le scheduling moins efficace.

Auditer les logs serveur mensuellement pour traquer les URLs crawlées inutilement
Bloquer via robots.txt les sections à faible valeur (filtres, pagination profonde, archives)
Optimiser le TTFB serveur en dessous de 200 ms
Nettoyer régulièrement les erreurs 404 et 5xx dans Search Console
Produire des sitemaps XML segmentés par priorité (produits phares, contenu éditorial, reste)
Renforcer le maillage interne vers les pages stratégiques pour booster leur fréquence de recrawl

Le crawl budget n'est un vrai problème que pour les gros sites, mais quand il devient limitant, l'impact sur l'indexation et la fraîcheur des pages peut être brutal. L'optimisation passe par un tri impitoyable des URLs indexables, une infrastructure serveur performante et un pilotage fin via sitemap et maillage interne. Ces optimisations techniques peuvent être complexes à mettre en œuvre seul, surtout sur des architectures e-commerce ou des plateformes de contenu à forte volumétrie — dans ces cas-là, l'accompagnement d'une agence SEO spécialisée peut s'avérer déterminant pour éviter les écueils et maximiser le ROI de chaque passage de Googlebot.

❓ Questions frequentes

Le crawl budget a-t-il un impact direct sur le classement de mes pages ?

Non, pas directement. Le crawl budget influence la fréquence à laquelle Google découvre vos mises à jour et nouvelles pages, mais il ne détermine pas votre positionnement. En revanche, si vos pages stratégiques ne sont pas crawlées régulièrement, Google risque de passer à côté de vos optimisations ou de nouveaux contenus, ce qui peut indirectement nuire à votre visibilité.

Comment savoir combien de crawl budget Google alloue à mon site ?

Google ne communique pas de chiffre précis. La seule façon fiable de mesurer votre crawl budget est d'analyser vos logs serveur pour compter le nombre d'URLs visitées par Googlebot par jour. Search Console donne des indications partielles via le rapport d'exploration, mais les logs bruts restent la référence.

Est-ce que soumettre mon sitemap XML augmente mon crawl budget ?

Non, le sitemap n'augmente pas le budget alloué. Il aide Googlebot à prioriser les pages que vous jugez importantes, mais le nombre total d'URLs crawlées reste contraint par les limites techniques de votre serveur et la confiance que Google accorde à votre site.

Les pages bloquées en robots.txt consomment-elles du crawl budget ?

Non, Googlebot ne crawle pas les URLs bloquées dans robots.txt (il peut les découvrir via des liens, mais ne les télécharge pas). Bloquer intelligemment les sections inutiles permet donc d'économiser du budget pour les pages stratégiques.

Un site rapide obtient-il automatiquement plus de crawl budget ?

Oui, dans une certaine mesure. Un serveur qui répond vite permet à Googlebot de crawler plus de pages dans le même temps. Google ajuste aussi à la hausse le budget des sites techniquement sains pour éviter de les surcharger inutilement — un cercle vertueux pour les sites bien optimisés.

🏷 Sujets associes

crawl budget Googlebot indexation logs serveur sitemap XML robots.txt crawl scheduling infrastructure SEO

Anciennete & Historique Crawl & Indexation Nom de domaine

🎥 De la même vidéo 15

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 31 min · publiée le 09/12/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Normalisation du HTML cassé par Google...

Processus crawl-render-index pour la majorité des ...

« Retour aux resultats