Le crawl budget : pourquoi Google ne crawle-t-il qu'une fraction de vos pages connues ?

Declaration officielle

Google ne crawle qu'une partie des URLs connues d'un site depuis ses débuts. Si Google crawle 20 000 pages sur 100 000 connues (via sitemap), seules ces 20 000 peuvent être indexées. Ce nombre augmente quand la qualité du site s'améliore. Ce n'est pas un phénomène nouveau.

3:11

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 37:34 💬 EN 📅 12/06/2020 ✂ 18 déclarations

Voir sur YouTube (3:11) →

✂ Autres déclarations de cette vidéo 17 ▾

1:06 Pourquoi Google affiche-t-il soudainement plus d'URLs non indexées dans Search Console ?
5:17 Core Web Vitals : pourquoi vos tests en laboratoire ne servent-ils à rien pour le ranking ?
9:30 Le contenu généré par les utilisateurs engage-t-il vraiment la responsabilité SEO du site ?
11:03 Faut-il vraiment inclure toutes vos pages dans un sitemap général ?
12:05 Le crawl budget varie-t-il selon l'origine du contenu ?
13:08 Googlebot envoie-t-il un referrer HTTP lors du crawl de votre site ?
14:09 La qualité des images influence-t-elle vraiment le ranking dans la recherche web Google ?
18:15 Comment Google évalue-t-il vraiment l'importance de vos pages via le linking interne ?
20:19 Pourquoi un site bien positionné peut-il perdre sa pertinence sans avoir commis d'erreur ?
21:53 Les Core Web Vitals sont-ils vraiment un facteur de ranking ou juste un écran de fumée ?
22:57 Discover fonctionne-t-il vraiment sans critères techniques stricts ?
25:02 Retirer des pages d'un sitemap peut-il limiter leur crawl par Google ?
27:08 Faut-il vraiment utiliser unavailable_after pour gérer le contenu temporaire ?
30:11 Le structured data influence-t-il réellement le ranking dans Google ?
31:45 Pourquoi Google indexe-t-il parfois vos pages AMP avant leur version HTML canonique ?
33:52 Les Core Web Vitals sont-ils vraiment décisifs pour le ranking Google ?
35:51 Google voit-il vraiment le contenu chargé dynamiquement après un clic utilisateur ?

Ce qu'il faut comprendre

Google crawle-t-il vraiment toutes les URLs qu'il connaît ?

Non, et ça n'a jamais été le cas. Google ne crawle qu'une fraction des URLs connues d'un site, quelle que soit sa taille. Cette réalité est souvent mal comprise : soumettre 100 000 pages via sitemap ne garantit pas que ces pages seront visitées par Googlebot.

Le moteur opère une sélection active basée sur sa perception de la qualité du site et de la pertinence de chaque URL. Si Google juge que 80% de vos pages n'apportent rien, il ne perdra pas de temps à les crawler régulièrement — voire jamais.

Qu'est-ce qui détermine ce volume de crawl alloué ?

Le crawl budget n'est pas un quota fixe : c'est une allocation dynamique qui reflète la confiance que Google accorde à votre site. Plus la qualité perçue est élevée, plus Googlebot consacre de ressources à explorer vos contenus.

Concrètement ? Un site avec du contenu unique, régulièrement mis à jour, et techniquement propre verra son volume de crawl augmenter progressivement. À l'inverse, un site bourré de pages dupliquées, de contenus faibles ou de facettes inutiles verra son budget stagner — voire régresser.

Pourquoi cette limitation existe-t-elle depuis toujours ?

Parce que crawler le web coûte cher en ressources serveur, bande passante et énergie. Google doit prioriser : il ne peut pas visiter quotidiennement chaque page de chaque site du web, surtout quand 90% du contenu crawlé ne mérite pas d'être indexé.

Cette contrainte économique oblige Google à être sélectif dès le crawl. C'est une barrière avant même l'indexation : si une page n'est jamais crawlée, elle ne peut pas entrer en compétition pour les SERP. Et c'est là que beaucoup de SEO se plantent : ils optimisent des pages que Google ne visite tout simplement pas.

Google ne crawle qu'une partie des URLs connues, même via sitemap XML
Ce volume de crawl est proportionnel à la qualité perçue du site
Une URL non crawlée ne peut pas être indexée, quelles que soient ses qualités intrinsèques
Cette limitation existe depuis les débuts de Google et n'est pas un phénomène récent
Améliorer la qualité globale du site augmente mécaniquement le crawl budget alloué

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Oui, et c'est même une des rares affirmations de Google qui colle parfaitement aux audits SEO réels. Sur des sites de 50 000+ pages, on voit régulièrement 40% à 60% des URLs jamais visitées par Googlebot, même après plusieurs mois en ligne.

Le problème, c'est que beaucoup de SEO découvrent cette réalité trop tard — après avoir généré des milliers de pages de filtres ou de catégories à faible valeur. Ils constatent alors que Google ignore purement et simplement ces URLs, sans même les crawler une fois.

Pourquoi Google reste-t-il flou sur les seuils exacts ?

Parce qu'il n'y a pas de règle universelle. Le volume crawlé dépend de dizaines de facteurs : historique du domaine, popularité du contenu, fréquence de mise à jour, qualité technique, profondeur des pages, vitesse serveur, taux d'erreurs HTTP...

Google ne veut pas donner de chiffres précis pour éviter que les SEO ne cherchent à gamer le système. Mais concrètement ? Un site e-commerce lambda avec 200 000 produits verra rarement plus de 30% à 50% de ses pages crawlées régulièrement. [A vérifier] sur votre propre projet via les logs serveur.

Quelles sont les limites de cette logique de qualité globale ?

Le souci, c'est que Google juge la qualité à l'échelle du site entier, pas page par page au crawl initial. Si 80% de votre site est médiocre, même vos 20% de pages premium risquent de ne jamais être crawlées simplement parce qu'elles sont noyées dans la masse.

C'est là qu'intervient la stratégie de nettoyage massif : désindexer ou supprimer les pages faibles peut paradoxalement améliorer le crawl des pages importantes. Certains sites ont doublé leur trafic organique en supprimant 60% de leurs contenus — ce n'est pas un mythe, c'est une réalité terrain sur les gros sites.

Attention : Si vous avez un site de 100 000+ pages avec un trafic stagnant, vérifiez d'urgence votre taux de crawl réel via les logs serveur. Vous découvrirez probablement que Google ignore la majorité de vos contenus — et c'est souvent le premier levier d'optimisation à actionner.

Impact pratique et recommandations

Comment mesurer concrètement le crawl budget de votre site ?

La première étape, c'est d'analyser vos logs serveur. Google Search Console vous donne une vue partielle, mais les logs bruts vous montrent exactement quelles URLs sont visitées, à quelle fréquence, et avec quelle profondeur.

Croisez ensuite ces données avec votre sitemap XML déclaré. Si vous avez 50 000 URLs soumises mais seulement 10 000 crawlées sur 30 jours, vous avez un problème structurel. Soit votre contenu est jugé faible, soit votre architecture noie les pages importantes.

Quelles actions concrètes pour augmenter le volume crawlé ?

Première priorité : éliminer les pages à faible valeur. Facettes inutiles, pages dupliquées, contenus minces, catégories vides — tout ce qui pollue le crawl sans apporter de trafic doit être désindexé ou supprimé.

Ensuite, optimisez votre maillage interne pour pousser les pages stratégiques : une page orpheline ou située à 8 clics de la home a peu de chances d'être crawlée régulièrement. Ramenez vos contenus clés à 2-3 clics maximum via des liens contextuels pertinents.

Enfin, améliorez vos signaux techniques : vitesse serveur, temps de réponse, taux d'erreurs 4xx/5xx, redirections inutiles. Un serveur lent ou instable fait baisser mécaniquement votre crawl budget — Google ne veut pas surcharger vos ressources.

Quelles erreurs critiques faut-il éviter absolument ?

Erreur numéro un : générer massivement des pages sans vérifier qu'elles seront crawlées. Avant de lancer 100 000 fiches produits ou 500 000 combinaisons de filtres, vérifiez que votre site a la capacité technique et qualitative d'absorber ce volume.

Erreur numéro deux : ignorer les signaux de crawl excessif. Si Google crawle 80% de vos pages mais que seulement 20% génèrent du trafic, c'est que vous gaspillez du budget sur du contenu inutile. Redirigez ce budget vers vos pages stratégiques en nettoyant le reste.

Analysez vos logs serveur pour identifier le taux de crawl réel versus URLs connues
Supprimez ou désindexez toutes les pages à faible valeur ajoutée (contenus minces, duplications, facettes inutiles)
Optimisez votre maillage interne pour remonter les pages stratégiques à 2-3 clics de la home
Améliorez la vitesse serveur et le temps de réponse pour maximiser l'efficacité du crawl
Soumettez uniquement vos meilleures pages dans le sitemap XML — pas l'intégralité du site
Surveillez l'évolution du crawl budget via Search Console et logs après chaque optimisation

Le crawl budget n'est pas une fatalité : c'est un indicateur de confiance que Google accorde à votre site. En nettoyant vos contenus faibles, en optimisant votre architecture et en améliorant vos signaux techniques, vous pouvez doubler ou tripler le volume crawlé en quelques mois. Ces optimisations demandent cependant une expertise pointue en analyse de logs, architecture SEO et stratégie de contenu — des domaines où une agence SEO spécialisée peut vous accompagner pour structurer un plan d'action sur mesure et éviter les erreurs coûteuses.

❓ Questions frequentes

Si Google connaît 100 000 de mes URLs mais n'en crawle que 20 000, que deviennent les 80 000 autres ?

Elles restent connues (via sitemap ou liens) mais ne sont jamais visitées par Googlebot, donc jamais indexées ni classées. Elles consomment votre budget crawl sans apporter de valeur — il faut les désindexer ou les supprimer.

Peut-on forcer Google à crawler davantage de pages en augmentant la fréquence du sitemap ?

Non. Le sitemap indique quelles URLs existent, mais Google décide seul lesquelles méritent d'être crawlées en fonction de la qualité perçue du site. Soumettre plus souvent le même sitemap ne change rien.

Comment savoir si mon site souffre d'un problème de crawl budget ?

Comparez le nombre d'URLs crawlées (logs serveur) versus URLs connues (sitemap + GSC). Si moins de 50% sont crawlées sur 30 jours, ou si vos pages stratégiques ne sont jamais visitées, vous avez un problème.

Supprimer des pages faibles améliore-t-il vraiment le crawl des pages restantes ?

Oui, dans la majorité des cas. En éliminant le bruit, vous concentrez le budget crawl sur vos contenus à forte valeur. Certains sites ont doublé leur trafic organique après avoir supprimé 50% à 70% de leurs pages.

Le crawl budget est-il uniquement un problème pour les gros sites ?

Non. Même un site de 5 000 pages peut gaspiller son budget sur des contenus faibles. La taille amplifie le problème, mais la logique s'applique dès qu'il y a une masse critique de pages à faible valeur.

🎥 De la même vidéo 17

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 37 min · publiée le 12/06/2020

🎥 Voir la vidéo complète sur YouTube →