Faut-il vraiment s'inquiéter du crawl budget sous le million d'URLs ?

Declaration officielle

Si votre site compte moins d'un million d'URLs, vous n'avez généralement pas à vous soucier du crawl budget. Ce chiffre est une base de référence indicative.

15:37

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 31:53 💬 EN 📅 09/12/2020 ✂ 16 déclarations

Voir sur YouTube (15:37) →

✂ Autres déclarations de cette vidéo 15 ▾

2:49 Pourquoi Google rend-il quasi systématiquement vos pages avant de les indexer ?
3:52 Faut-il abandonner le modèle des deux vagues d'indexation ?
7:35 Google utilise-t-il une sandbox ou une période de lune de miel pour les nouveaux sites ?
8:02 Google devine-t-il vraiment où classer un nouveau site avant même d'avoir des données ?
9:07 Pourquoi les nouveaux sites connaissent-ils des montagnes russes dans les SERP ?
13:59 Faut-il vraiment se préoccuper du crawl budget pour son site ?
16:09 Le crawl budget existe-t-il vraiment ou est-ce juste un mythe SEO ?
17:42 Google bride-t-il volontairement son crawl pour ménager vos serveurs ?
18:51 Googlebot peut-il vraiment arrêter de crawler votre site à cause de codes d'erreur serveur ?
20:24 Comment détecter un vrai problème de crawl budget sur votre site ?
21:57 Élaguer le contenu faible améliore-t-il vraiment le crawl budget ?
22:28 Faut-il sacrifier la vitesse serveur pour économiser du crawl budget ?
23:32 Pourquoi vos requêtes API explosent-elles votre crawl budget à votre insu ?
24:36 Le crawl budget : toutes vos URLs comptent-elles vraiment autant que Google l'affirme ?
25:39 Faut-il vraiment s'inquiéter du cache agressif de Googlebot sur vos ressources statiques ?

Ce qu'il faut comprendre

Qu'entend vraiment Google par « crawl budget » ?

Le crawl budget désigne le nombre de pages qu'un moteur de recherche va explorer sur un site durant une période donnée. Google alloue un quota qui dépend de plusieurs facteurs : la popularité du site, la vitesse de réponse du serveur, la fraîcheur du contenu et la qualité globale des pages.

Cette notion est souvent mal comprise. Le crawl budget n'est pas une limite fixe gravée dans le marbre — c'est un équilibre dynamique entre ce que Google peut explorer sans surcharger ton serveur et ce qu'il juge utile d'explorer. Un site peut théoriquement avoir 500 000 URLs mais n'en voir que 10 000 crawlées par jour si Googlebot détecte beaucoup de contenu dupliqué, de pages de mauvaise qualité ou des temps de réponse catastrophiques.

Quand Gary Illyes pose le seuil à un million d'URLs, il parle d'un seuil indicatif au-delà duquel les problèmes structurels d'exploration deviennent statistiquement inévitables. En dessous, la plupart des sites n'ont effectivement pas de contrainte technique liée au volume brut.

Pourquoi ce chiffre de 1 million précisément ?

Soyons honnêtes : ce chiffre n'est pas une vérité scientifique gravée dans le code de Googlebot. C'est une approximation pragmatique qui permet de couper court aux angoisses des petits sites. Un million d'URLs, c'est environ la taille d'un média national bien fourni, d'un e-commerce mature avec catalogue étendu et filtres, ou d'un portail d'emploi couvrant un pays entier.

Ce seuil sert surtout à délimiter une zone de confort — en dessous, si tu rencontres des soucis d'indexation, ce n'est probablement pas parce que Google refuse de crawler tes pages faute de budget. Les causes sont ailleurs : architecture bancale, redirections en cascade, balises robots.txt trop restrictives, sitemap XML absent ou mal maintenu, contenu pauvre.

Dans quels cas ce seuil ne s'applique-t-il pas ?

Un site de 200 000 URLs peut très bien avoir un problème de crawl budget s'il génère massivement des facettes filtrées inutiles, si son serveur est lent comme un âne mort, ou si son maillage interne est catastrophique. À l'inverse, un site de 1,2 million de pages bien structuré, rapide, avec un maillage cohérent et du contenu frais peut ne jamais rencontrer de limitation.

Le volume n'est qu'un indicateur parmi d'autres. Google regarde aussi la vélocité de publication (combien de nouvelles pages par jour ?), la fréquence de mise à jour du contenu existant, le taux de bounce sur les pages crawlées (signal qualité indirect), et la popularité externe du site (backlinks, trafic).

Architecture et profondeur : un site de 300 000 pages mais avec une profondeur moyenne de 8 clics sera mal crawlé, même sous le million.
Vitesse serveur : si ton serveur met 2 secondes à répondre en moyenne, Googlebot ralentit volontairement le rythme pour ne pas te faire planter — ce qui réduit mécaniquement le nombre de pages crawlées.
Qualité et fraîcheur : un site avec 80% de pages mortes (zéro trafic, zéro liens internes) verra son crawl budget gaspillé sur du contenu que Google finit par ignorer.
Signaux de spam : des patterns suspects (duplication massive, cloaking, redirections douteuses) peuvent réduire drastiquement l'allocation de crawl, quel que soit le volume.
Popularité externe : un site avec un bon profil de backlinks et du trafic organique régulier obtient naturellement plus de crawl — Google considère qu'il y a de la valeur à y revenir souvent.

Avis d'un expert SEO

Cette règle du million est-elle vraiment fiable sur le terrain ?

Dans ma pratique, ce seuil est globalement cohérent avec ce qu'on observe — à condition de ne pas le prendre au pied de la lettre. La majorité des sites sous 500 000 URLs n'ont effectivement pas de contrainte de crawl budget strict. Quand ils rencontrent des soucis d'indexation, c'est quasi systématiquement lié à des problèmes structurels : maillage interne défaillant, profondeur excessive, duplication, fichiers robots.txt mal configurés.

Ceci dit, j'ai vu des sites de 150 000 pages avec un crawl budget clairement bridé — serveur hébergé sur une offre low-cost avec des temps de réponse supérieurs à 1,5 seconde, des milliers de redirections 301 en cascade, et un sitemap XML qui listait 80 000 URLs dont la moitié retournaient du 404. Dans ce cas, Google crawle mollement et finit par ignorer une grosse partie du site.

Quelles nuances faut-il apporter à cette affirmation ?

Google parle de « généralement » — ce mot compte. La réalité, c'est que le crawl budget est une résultante, pas une cause. Si ton site est techniquement propre, rapide, bien maillé, avec du contenu frais et un sitemap à jour, tu ne rencontreras pas de limite même avec 800 000 URLs. Si ton site est bancal, 50 000 pages peuvent déjà poser problème.

Par ailleurs, la distribution du crawl compte autant que le volume total. Googlebot peut crawler 10 000 pages par jour sur ton site, mais si 90% de ce crawl se concentre sur des pages de faible valeur (facettes filtrées, anciennes actualités), tes pages stratégiques ne seront pas visitées régulièrement. Le problème n'est donc pas toujours quantitatif — il est souvent qualitatif.

Autre point : cette déclaration date d'une époque où le web était moins dynamique. Aujourd'hui, avec des sites en JavaScript lourd, des SPA (Single Page Applications), du rendu côté client, le crawl budget peut être impacté par le coût computationnel du rendering, pas seulement par le volume brut d'URLs. [À vérifier] dans quelle mesure ce million intègre ou non le coût CPU du rendu moderne.

Dans quels cas cette règle ne s'applique-t-elle absolument pas ?

Si ton site génère des URLs paramétrées à l'infini (ex : facettes e-commerce mal gérées, pagination infinie, sessions utilisateurs dans l'URL), tu peux te retrouver avec « seulement » 100 000 pages réelles mais des millions d'URLs potentielles que Googlebot va tenter de crawler. Dans ce cas, le crawl budget devient un vrai problème, même si ton inventaire produit ne dépasse pas 10 000 références.

Les sites avec une forte vélocité éditoriale — actualités, petites annonces, offres d'emploi — peuvent aussi saturer leur crawl budget si Google doit revenir plusieurs fois par heure sur des centaines de milliers de pages qui changent constamment. Là encore, le volume seul ne suffit pas à prédire le comportement de Googlebot.

Attention : si tu constates dans la Search Console que des pages stratégiques ne sont pas crawlées régulièrement alors que ton site est sous le million d'URLs, ne te rassure pas trop vite avec cette règle. Creuse l'architecture, la vitesse, le maillage et la qualité du contenu — le problème est probablement là.

Impact pratique et recommandations

Que faut-il faire concrètement si mon site est sous le million d'URLs ?

Ne te repose pas sur tes lauriers. Le fait d'être sous le seuil ne garantit rien si ton site est structurellement bancal. Concentre-toi sur les fondamentaux techniques : temps de réponse serveur, profondeur de clic, qualité du maillage interne, gestion des redirections, nettoyage des pages mortes.

Vérifie régulièrement dans Google Search Console le rapport « Statistiques d'exploration » pour identifier les anomalies : pics de crawl inexpliqués (souvent signe de duplication ou de boucles de redirections), chutes brutales (blocage robots.txt, erreurs serveur massives), concentration du crawl sur des zones non stratégiques.

Comment détecter un problème de crawl budget même sous le million ?

Compare le nombre de pages crawlées par jour (Search Console > Statistiques d'exploration) avec le volume de pages actives que tu souhaites voir indexées. Si Googlebot ne visite que 10% de tes pages stratégiques par semaine, il y a un souci — même si tu es à 300 000 URLs.

Analyse la profondeur moyenne de tes pages importantes. Si tes fiches produits phares sont à 5-6 clics de la home, c'est un signal que ton maillage interne ne fait pas son job. Googlebot suit les liens comme un utilisateur — ce qui est profond pour lui l'est aussi pour tes visiteurs.

Regarde aussi les temps de réponse serveur dans Search Console. Si la moyenne dépasse 500ms, Google va ralentir le crawl pour ne pas surcharger ton infrastructure. Un serveur qui tient la charge à 200ms permet un crawl plus agressif et donc une meilleure couverture.

Quelles erreurs éviter absolument ?

Ne génère pas d'URLs inutiles — chaque facette, filtre, tri ou pagination qui n'apporte pas de valeur SEO unique doit être bloquée (robots.txt, balise meta robots noindex, ou mieux encore : paramètre canonique). Chaque URL crawlée inutilement est du budget gaspillé.

Ne laisse pas traîner des milliers de redirections 301 en cascade. Googlebot suit les redirections, mais ça consomme du budget. Si une page A redirige vers B qui redirige vers C, Googlebot peut décider de ne pas aller jusqu'au bout — ou de ralentir le crawl de ta section.

N'oublie pas de mettre à jour ton sitemap XML régulièrement. Un sitemap qui liste 50 000 URLs dont 10 000 sont en 404 ou en redirect envoie un signal de négligence à Google. Un sitemap propre, à jour, qui ne liste que les pages actives et indexables, guide Googlebot efficacement.

Vérifier les stats d'exploration dans Search Console chaque semaine
Auditer la profondeur de clic des pages stratégiques (objectif : max 3 clics depuis la home)
Mesurer les temps de réponse serveur et optimiser si >300ms
Nettoyer les URLs paramétrées inutiles (facettes, sessions, tracking)
Maintenir un sitemap XML à jour, sans 404 ni redirections
Identifier et désindexer ou supprimer les pages mortes (zéro trafic, zéro liens internes)

Le seuil du million d'URLs est un repère utile, pas une garantie. Même en dessous, un site mal architecturé peut gaspiller son crawl budget. L'essentiel est de rendre l'exploration fluide, rapide et pertinente — Googlebot te remerciera en indexant efficacement tes pages importantes. Ces optimisations techniques peuvent rapidement devenir complexes à piloter, surtout sur des sites en croissance. Si tu constates des signaux d'alerte dans Search Console ou que ton indexation stagne malgré des efforts, envisage de te faire accompagner par une agence SEO spécialisée qui saura diagnostiquer finement ton architecture et débloquer les goulets d'étranglement.

❓ Questions frequentes

Un site de 50 000 pages peut-il avoir un problème de crawl budget ?

Oui, si la profondeur de clic est excessive, si le serveur est lent, ou si beaucoup d'URLs générées sont inutiles (facettes, paramètres de session). Le volume seul ne garantit pas un crawl fluide.

Comment savoir combien de pages Google crawle par jour sur mon site ?

Dans Google Search Console, section « Paramètres » puis « Statistiques d'exploration ». Tu y trouveras le nombre de requêtes par jour, les temps de réponse et les erreurs serveur.

Faut-il bloquer les facettes e-commerce pour économiser du crawl budget ?

Si les facettes ne génèrent pas de trafic organique distinct et créent de la duplication, oui — utilise robots.txt, meta robots noindex ou des canoniques vers la page principale. Ça évite de gaspiller du crawl sur du contenu non stratégique.

Un sitemap XML mal maintenu peut-il réduire le crawl budget ?

Indirectement oui. Un sitemap rempli de 404, de redirections ou d'URLs bloquées envoie un signal de négligence. Google peut réduire la fréquence de crawl s'il détecte trop d'erreurs répétées.

La vitesse serveur impacte-t-elle vraiment le crawl budget ?

Absolument. Si ton serveur répond lentement, Googlebot ralentit volontairement le rythme pour ne pas te surcharger. Un serveur rapide permet un crawl plus agressif et donc une meilleure couverture.

🎥 De la même vidéo 15

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 31 min · publiée le 09/12/2020

🎥 Voir la vidéo complète sur YouTube →