Is it true that crawl budget is managed at the server level rather than the directory level?

Quick SEO Quiz

Test your SEO knowledge in 5 questions

Less than a minute. Find out how much you really know about Google search.

🕒 ~1 min 🎯 5 questions

Official statement

Google assesses load capacity at the host server level, not at the folder level, to manage crawl budget.

35:51

🎥 Source video

Extracted from a Google Search Central video

⏱ 58:40 💬 EN 📅 30/10/2019 ✂ 13 statements

Watch on YouTube (35:51) →

✂ Other statements from this video 12 ▾

2:11 Faut-il optimiser son contenu pour BERT ou est-ce une perte de temps ?
3:46 YouTube bénéficie-t-il d'un avantage SEO dans Google Search ?
6:09 Problèmes d'indexation qui traînent : bug Google ou faille technique de votre site ?
8:54 Comment Google comptabilise-t-il vraiment les impressions dans Search Console ?
11:36 Faut-il vraiment implémenter hreflang sur tous les sites multilingues ?
18:42 Peut-on vraiment tricher avec les données structurées pour obtenir des rich snippets ?
22:06 Faut-il vraiment arrêter d'utiliser la commande site: pour compter vos pages indexées ?
28:38 Les pages non mobile-friendly peuvent-elles vraiment survivre à l'indexation mobile-first ?
43:40 Faut-il bloquer les URL paramétrées en robots.txt ou via les réglages Search Console ?
49:39 Faut-il vraiment « réparer » une pénalité algorithmique pour retrouver son trafic ?
61:48 Les sitemaps accélèrent-ils vraiment l'indexation des actualités sur Google ?
69:08 Le contenu réutilisé dans les sites d'actualités : quelle est vraiment la limite avant la pénalité ?

📅

Official statement from October 30, 2019 (6 years ago)

⚠ A more recent statement exists on this topic Does Google Merchant Center crawling count against your SEO crawl budget? John Mueller · April 30, 2024 View statement →

TL;DR

Google assesses the load capacity of a host server as a whole to determine crawl budget, not at the level of each folder or directory. In practice, if your server hosts multiple sites or sections, it is the overall performance that dictates how often Googlebot visits. This approach is a game-changer for complex architectures: optimizing a sub-folder is not enough if the server shows signs of weakness elsewhere.

What you need to understand

What does Google mean by « host server load capacity »?

When Google talks about server load capacity, it refers to how Googlebot evaluates the technical health of an infrastructure. Instead of analyzing folder by folder, Google measures the overall responsiveness of the server — response time, latency, 5xx errors, timeouts.

If your server hosts multiple sites or subdomains, Googlebot does not segment its analysis. A slow or misconfigured section can degrade the overall perception of reliability of your infrastructure, even if other areas are perfectly optimized.

Why does this approach change the game for multi-folder sites?

Many SEOs still think they can

SEO Expert opinion

Cette déclaration est-elle cohérente avec les observations terrain ?

Oui et non. D'un côté, l'idée que Google évalue la santé globale d'un serveur correspond à ce qu'on observe sur des infrastructures complexes. Quand un serveur donne des signes de fatigue — erreurs 503, timeouts, latence élevée — Googlebot ralentit le rythme, même sur des sections du site techniquement irréprochables.

Mais cette logique montre vite ses limites. On a vu des sites hébergés sur le même serveur (même IP, même infra) avec des budgets de crawl très différents. Comment expliquer cet écart si Google ne juge qu'au niveau du serveur ? La popularité du site, la fraîcheur du contenu, et la profondeur de l'arborescence jouent aussi — Google ne le dit jamais explicitement.

Quelles nuances faut-il apporter à cette affirmation ?

Google parle ici de capacité de charge technique, pas de budget de crawl total. Ce sont deux choses distinctes. Le budget de crawl dépend aussi de l'intérêt que Google porte à votre contenu — un site avec 10 millions de pages obsolètes ne sera jamais crawlé intégralement, même si le serveur est une fusée.

Autre point flou : qu'entend Google par « serveur hôte » ? Une IP ? Un nom de domaine ? Un cluster ? Sur une architecture moderne avec load balancing, reverse proxy, et CDN, la notion de « serveur » devient abstraite. Google simplifie probablement pour éviter d'entrer dans des détails techniques qu'il ne veut pas documenter. [A vérifier]

Dans quels cas cette règle ne s'applique-t-elle pas pleinement ?

Les sites qui utilisent des sous-domaines distincts sur des serveurs différents échappent en partie à cette logique. Si blog.example.com tourne sur un serveur A et shop.example.com sur un serveur B, chaque sous-domaine devrait bénéficier de son propre budget de crawl, indépendamment de l'autre.

Mais attention : Google ne garantit rien. On a vu des cas où des sous-domaines partageant la même infrastructure DNS ou le même certificat SSL étaient traités comme un ensemble. Là encore, Google ne documente jamais ces subtilités — il faut tester et mesurer sur le terrain.

Si vous êtes sur un hébergement mutualisé ou un serveur partagé, surveillez de près vos métriques de crawl. Vous pourriez payer les erreurs de vos voisins sans même le savoir.

Practical impact and recommendations

Que faut-il faire concrètement pour optimiser le budget de crawl au niveau serveur ?

Première étape : mesurer la santé technique de votre serveur dans son ensemble. Google Search Console vous donne des indices (erreurs serveur, temps de réponse moyen), mais il faut aussi analyser les logs serveur bruts pour identifier les patterns de crawl et les zones de friction.

Ensuite, passez au crible tous les répertoires, même ceux que vous jugez secondaires. Un /wp-admin/ mal sécurisé qui génère des centaines de 404, un /medias/ avec des fichiers lourds qui saturent la bande passante, un /test/ oublié qui renvoie des erreurs 500 — tout ça dégrade la perception globale. Robots.txt et balises noindex ne suffisent pas si Googlebot tente quand même d'accéder.

Quelles erreurs éviter sur une infrastructure multi-sites ou multi-dossiers ?

Ne laissez jamais un site ou un répertoire orphelin sur votre serveur. Si vous n'utilisez plus une section, supprimez-la physiquement ou redirigez proprement. Un dossier abandonné qui génère des erreurs ou des timeouts peut polluer la perception de l'ensemble.

Autre erreur classique : croire qu'un CDN règle tout. Un CDN améliore la latence et absorbe les pics de trafic, mais si votre serveur origine est lent ou instable, Googlebot peut contourner le cache et taper directement à la source. Résultat : vous ne profitez pas du CDN pour le crawl.

Comment vérifier que mon serveur est perçu comme stable par Google ?

Google Search Console, onglet « Statistiques d'exploration ». Vous y trouverez trois graphiques : nombre total de demandes d'exploration, temps de téléchargement moyen, et taille moyenne des téléchargements. Si le temps de téléchargement monte ou si le nombre de requêtes chute sans raison éditoriale, c'est un signal d'alerte.

Mais ce n'est qu'un début. Les logs serveur vous en disent beaucoup plus : fréquence de passage de Googlebot, codes HTTP renvoyés, pages les plus crawlées, timeouts. Un outil comme Screaming Frog Log File Analyser ou Botify (pour les gros sites) devient indispensable.

Analyser les logs serveur pour identifier les sections qui génèrent des erreurs ou des timeouts
Supprimer ou rediriger les répertoires obsolètes ou inutilisés sur le serveur
Vérifier que le CDN cache bien les ressources crawlées par Googlebot (User-Agent Googlebot dans les logs CDN)
Surveiller les métriques de Search Console (temps de téléchargement, volume de crawl) sur la durée
Éviter les hébergements mutualisés si votre site dépend fortement du crawl (e-commerce, actualité, marketplace)
Tester la réactivité du serveur sous charge avec des outils comme LoadImpact ou Artillery

Optimiser le budget de crawl au niveau serveur demande une vision globale de l'infrastructure, pas seulement des optimisations ponctuelles sur des dossiers isolés. Nettoyer les zones mortes, stabiliser les temps de réponse, et mesurer en continu sont des prérequis. Pour les sites complexes ou les infrastructures multi-sites, ces optimisations peuvent vite devenir techniques et chronophages. Si vous manquez de ressources internes ou d'expertise sur ces sujets, faire appel à une agence SEO spécialisée dans les audits techniques et le crawl budget peut vous faire gagner un temps précieux et éviter des erreurs coûteuses.

❓ Frequently Asked Questions

Le budget de crawl est-il le même pour tous les dossiers d'un site hébergé sur le même serveur ?

Non, Google alloue un budget global au serveur, mais la répartition interne dépend aussi de la popularité, de la fraîcheur du contenu, et de la structure de liens. Un dossier stratégique peut être crawlé plus souvent qu'un autre sur le même serveur.

Un CDN améliore-t-il forcément le budget de crawl ?

Pas toujours. Si Googlebot contourne le cache et accède directement au serveur origine, vous ne profitez pas du CDN pour le crawl. Il faut vérifier dans les logs que Googlebot passe bien par le CDN.

Dois-je migrer vers un serveur dédié pour améliorer mon budget de crawl ?

Si vous êtes sur un hébergement mutualisé et que vous constatez des erreurs serveur ou des ralentissements fréquents, oui. Un serveur dédié ou un VPS vous donne un contrôle total et élimine les risques liés aux voisins.

Google différencie-t-il les sous-domaines hébergés sur des serveurs distincts ?

Oui, en principe. Si blog.example.com et shop.example.com tournent sur des serveurs différents, chaque sous-domaine devrait avoir son propre budget de crawl. Mais la documentation Google reste floue sur les détails.

Comment savoir si mon serveur est en cause dans une baisse de crawl ?

Analysez les logs serveur pour repérer les erreurs 5xx, les timeouts, et les temps de réponse élevés. Croisez avec les données Search Console (temps de téléchargement moyen en hausse, volume de crawl en baisse).

🏷 Related Topics

crawl budget serveur hôte Googlebot infrastructure technique temps de réponse logs serveur hébergement mutualisé CDN

Crawl & Indexing

🎥 From the same video 12

Other SEO insights extracted from this same Google Search Central video · duration 58 min · published on 30/10/2019

🎥 Watch the full video on YouTube →

Related statements

« Previous

Accuracy of the Number of Indexed Pages...

« Back to results