Le budget de crawl, simple combinaison de taux et de demande ?

Declaration officielle

Le budget de crawl est le nombre d'URLs que Google peut et veut crawler. Il combine le taux de crawl (capacité technique) et la demande de crawl (besoin d'indexation).

46:04

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 161h29 💬 EN 📅 03/03/2021 ✂ 14 déclarations

Voir sur YouTube (46:04) →

✂ Autres déclarations de cette vidéo 13 ▾

9:53 Le budget de crawl est-il vraiment inutile pour les petits sites ?
15:14 Comment Google décide-t-il quelles pages crawler en priorité sur votre site ?
25:55 Qu'est-ce que la demande de crawl et comment Google la calcule-t-il vraiment ?
33:45 Comment Google calcule-t-il le taux de crawl pour ne pas planter vos serveurs ?
37:38 Le crawl budget augmente-t-il vraiment avec la vitesse de votre serveur ?
41:11 Pourquoi un site lent tue-t-il votre taux de crawl Google ?
43:17 Peut-on vraiment limiter le taux de crawl de Google sans risquer son référencement ?
61:43 Pourquoi Google réserve-t-il le rapport Crawl Stats aux propriétés de domaine uniquement ?
69:24 Les ressources externes faussent-elles vos statistiques de crawl ?
77:09 Le temps de réponse exclut-il vraiment le rendu de page dans Search Console ?
82:21 Pourquoi une chute brutale des requêtes de crawl peut-elle révéler un problème de robots.txt ou de temps de réponse ?
87:00 Le temps de réponse serveur influence-t-il vraiment le taux de crawl de Googlebot ?
101:16 Pourquoi un code 503 sur robots.txt peut-il bloquer tout le crawl de votre site ?

📅

Declaration officielle du 3 mars 2021 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Le budget crawl est-il un mythe inventé par les SEO ? John Mueller · 5 mars 2024 Voir la declaration →

TL;DR

Google définit le budget de crawl comme la rencontre entre le taux de crawl (capacité technique du serveur) et la demande de crawl (besoin d'indexation). Concrètement, même si votre serveur peut encaisser 10 000 URL par jour, Google n'en explorera peut-être que 500 s'il juge le contenu peu prioritaire. Cela implique d'optimiser non seulement la performance technique, mais surtout la fraîcheur et la valeur perçue des pages.

Ce qu'il faut comprendre

Qu'est-ce que le taux de crawl exactement ?

Le taux de crawl désigne la fréquence à laquelle Googlebot peut techniquement interroger votre serveur sans le mettre à genoux. C'est un seuil de sécurité ajusté dynamiquement : si votre temps de réponse augmente ou que le serveur renvoie des erreurs 5xx, Google ralentit.

Ce plafond n'est pas fixe. Il évolue en fonction de la santé du serveur, du CDN, du volume de requêtes simultanées. Un site qui tient la charge sous 100 ms peut voir son taux grimper ; un site qui rame à 2 secondes se verra bridé. Google veut crawler vite, mais sans casser.

Comment fonctionne la demande de crawl ?

La demande de crawl reflète l'appétit de Google pour vos contenus. Elle dépend de la popularité (liens internes et externes), de la fraîcheur (fréquence de mise à jour), et de la valeur perçue (qualité du contenu, engagement utilisateur, signals indirects). Une page mise à jour quotidiennement avec du trafic organique sera réclamée plus souvent qu'une page morte depuis deux ans.

Cette demande n'est pas linéaire : Google priorise les URL jugées stratégiques. Une home, une catégorie chaude, un article viral captent l'attention. Les pages profondes ou peu liées passent en fin de file — voire ne sont jamais crawlées si le budget est serré.

Pourquoi ces deux variables se combinent-elles ?

Le budget de crawl est le produit de cette rencontre. Vous pouvez avoir un serveur surpuissant (taux élevé), mais si vos contenus sont jugés obsolètes ou redondants, la demande reste basse — et l'essentiel du budget sera gaspillé sur des URL inutiles. Inversement, un contenu ultra-frais sur un serveur lent sera crawlé au compte-goutte.

C'est un équilibre dynamique. Google ne crawle pas « tout ce qu'il peut », mais « ce qu'il veut, dans la limite de ce qu'il peut ». La subtilité réside ici : optimiser le budget, c'est jouer sur les deux leviers en même temps.

Taux de crawl : capacité technique du serveur, ajustée en temps réel par Google selon la réactivité et la stabilité.
Demande de crawl : besoin d'indexation déterminé par la popularité, la fraîcheur, la valeur stratégique des URL.
Budget de crawl : résultante concrète = nombre d'URL effectivement explorées par jour ou semaine.
Les deux variables interagissent : un serveur rapide ne suffit pas si le contenu est jugé faible, et un contenu excellent ne sera pas exploré si le serveur suffoque.
Google priorise les URL à forte valeur ajoutée — home, catégories actives, pages populaires — au détriment des profondeurs peu liées ou stagnantes.

Avis d'un expert SEO

Cette définition est-elle vraiment nouvelle ?

Pas franchement. Google martèle cette approche depuis des années, notamment dans les documents officiels de 2017 sur le crawl budget. Ce qui change, c'est la clarification sémantique : on parle désormais de « taux » et « demande » comme deux variables distinctes, là où on mélangeait tout sous « budget de crawl ».

Cela dit, la formulation reste volontairement floue. Google ne donne aucun chiffre concret sur les seuils, les algorithmes de priorisation, ou les signaux exacts de « demande ». On sait que PageRank interne joue, que les sitemaps influencent, que la vitesse de réponse compte — mais le poids relatif de chaque variable ? [A vérifier] sur le terrain, site par site.

Quels biais faut-il pointer du doigt ?

Google aime simplifier, mais la réalité est plus tortueuse. Le taux de crawl ne dépend pas que du serveur : il intègre des contraintes réseau, des politiques de fair use par IP, des ajustements géographiques (crawl distribué depuis différents datacenters). Un site peut voir son taux fluctuer de 300 % d'un jour à l'autre sans changement technique.

Côté demande, les critères de « valeur perçue » sont opaques. Google prétend crawler ce qui « mérite » de l'être, mais qu'est-ce qui mérite ? Le trafic organique existant (cercle vicieux pour les nouveaux contenus), les liens externes (biais vers les gros sites), la vitesse de publication (avantage aux actus) ? Aucune pondération publique.

Dans quels cas cette règle ne s'applique-t-elle pas ?

Les petits sites (< 10 000 pages) n'ont généralement pas de problème de budget : Google crawle l'essentiel sans friction. La question ne se pose vraiment qu'au-delà de 50 000 URL, ou pour les sites dynamiques générant des millions de variations (e-commerce, filtres, pagination sauvage).

Autre exception : les sites avec un contenu ultra-autoritaire (grands médias, Wikipedia, sites gouvernementaux) bénéficient d'un taux et d'une demande artificiellement élevés. Google crawle CNN toutes les 5 minutes, même si le serveur rame. Le « budget » n'est pas égalitaire — c'est une réalité souvent passée sous silence.

Attention : Google ne publie aucune métrique directe de budget de crawl dans Search Console. Les stats de « Statistiques d'exploration » montrent des requêtes, pas un plafond. Toute « optimisation du budget » repose donc sur des proxies et des déductions indirectes.

Impact pratique et recommandations

Que faut-il faire concrètement pour maximiser le taux de crawl ?

Optimisez la vitesse serveur : temps de réponse < 200 ms, TTFB minimal, cache HTTP agressif, CDN pour les assets. Google ajuste le taux à la hausse si le serveur tient la charge. Surveillez les erreurs 5xx dans Search Console : une avalanche d'erreurs serveur fait chuter le taux immédiatement.

Allégez les ressources bloquantes : JavaScript lourd, redirections en cascade, chaînes de 301, tout ce qui ralentit le rendu et l'accès au HTML brut pénalise le crawl. Googlebot mobile-first crawle avec un budget serré — chaque milliseconde gaspillée réduit le volume exploré.

Comment booster la demande de crawl ?

Publiez du contenu frais régulièrement : mises à jour éditoriales, nouveaux articles, ajustements de prix, ajout de données structurées. Google recrawle plus fréquemment les URL qui bougent. Un site figé voit sa demande s'effondrer en quelques semaines.

Renforcez le maillage interne : chaque page importante doit être accessible en 3 clics maximum depuis la home, avec un PageRank interne distribué intelligemment. Les pages orphelines ou à 10 clics de profondeur ne seront jamais crawlées, même avec un serveur Ferrari. Auditez vos logs serveur pour repérer les URL boudées par Googlebot.

Quelles erreurs éviter absolument ?

Ne gaspillez pas le budget sur des URL inutiles : facettes de filtres infinies, sessions utilisateur dans les paramètres, pages paginées redondantes. Utilisez robots.txt, canonical, noindex stratégiquement — mais attention, un noindex crawle quand même, il consomme du budget sans indexer.

Évitez les soft 404 et les pages vides : Google continue de les crawler par inertie, pompant du budget pour rien. Supprimez ou 410 les URL mortes définitivement. Un sitemap XML gonflé de 80 % d'URL inutiles dilue le signal — Google crawle au hasard, pas par priorité.

Auditez vos logs serveur (ou Search Console) pour identifier les URL crawlées vs. les URL stratégiques ignorées.
Nettoyez les paramètres dynamiques inutiles : filtres, tri, pagination — bloquez via robots.txt ou parameter handling dans GSC.
Accélérez le TTFB : < 200 ms idéal, surveillez les pics de latence qui font chuter le taux de crawl.
Mettez à jour régulièrement vos pages clés : même un ajout mineur (date, paragraphe) signale de la fraîcheur.
Renforcez le maillage interne : chaque page stratégique doit recevoir des liens depuis des pages crawlées fréquemment.
Surveillez les erreurs 5xx et 4xx dans Search Console : elles signalent à Google que le serveur est fragile, ce qui bride le taux.

Optimiser le budget de crawl, c'est jongler avec deux variables simultanément : la capacité technique (serveur rapide, architecture propre) et la valeur perçue (contenu frais, popularité, maillage). Google ne crawle pas tout ce qu'il peut, mais ce qu'il veut — à vous de rendre vos URL désirables et accessibles. Ces optimisations peuvent être complexes à mettre en œuvre seul, surtout sur des sites de grande taille : auditer les logs, identifier les goulots d'étranglement serveur, restructurer le maillage interne demandent une expertise technique pointue. Si vous sentez que votre budget de crawl est sous-exploité ou mal distribué, faire appel à une agence SEO spécialisée peut vous faire gagner un temps précieux et éviter des erreurs coûteuses.

❓ Questions frequentes

Le budget de crawl affecte-t-il directement le classement dans les résultats ?

Non, pas directement. Un budget de crawl limité empêche Google de découvrir ou de mettre à jour vos pages, ce qui peut indirectement nuire au classement si du contenu frais n'est jamais indexé. Mais une page crawlée n'est pas automatiquement mieux classée — c'est un prérequis, pas un facteur de ranking.

Comment savoir si mon site souffre d'un problème de budget de crawl ?

Si vous avez moins de 10 000 pages, ce n'est probablement pas un problème. Au-delà, vérifiez dans Search Console si des URL stratégiques restent "Découvertes mais non explorées" pendant des semaines, ou si le taux de crawl stagne alors que vous publiez régulièrement. Les logs serveur sont l'outil le plus fiable.

Un sitemap XML améliore-t-il le budget de crawl ?

Pas directement le budget, mais il aide Google à prioriser. Un sitemap bien conçu (< 50 000 URL, trié par priorité réelle, mis à jour fréquemment) signale quelles pages méritent l'attention. Mais si votre serveur est lent ou vos contenus jugés faibles, le sitemap ne forcera pas un crawl massif.

Faut-il bloquer les URL inutiles dans robots.txt ou utiliser noindex ?

Robots.txt empêche le crawl — donc économise du budget. Noindex laisse Google crawler la page pour lire la balise, puis ne l'indexe pas — donc consomme du budget. Pour des milliers d'URL inutiles (filtres, sessions), privilégiez robots.txt ou la suppression pure.

Le passage au mobile-first indexing a-t-il changé le budget de crawl ?

Oui, Google crawle désormais prioritairement la version mobile, souvent avec un budget plus serré (Googlebot mobile simule des connexions plus lentes). Si votre mobile est plus lourd ou moins performant que le desktop, le taux de crawl peut chuter. Optimisez la vitesse mobile en priorité.

🏷 Sujets associes

crawl budget taux de crawl demande de crawl indexation Googlebot logs serveur maillage interne performance serveur

Contenu Crawl & Indexation Nom de domaine

🎥 De la même vidéo 13

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 161h29 · publiée le 03/03/2021

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Robots.txt doit retourner 200 ou 404...

Budget de crawl non pertinent pour petits sites...

« Retour aux resultats