Comment détecter un vrai problème de crawl budget sur votre site ?

Declaration officielle

Pour identifier des problèmes de crawl budget, vérifiez les URLs jamais crawlées dans vos logs serveur et les taux de rafraîchissement. Si certaines sections ne sont pas rafraîchies pendant des mois malgré des modifications, c'est un indicateur.

20:24

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 31:53 💬 EN 📅 09/12/2020 ✂ 16 déclarations

Voir sur YouTube (20:24) →

✂ Autres déclarations de cette vidéo 15 ▾

2:49 Pourquoi Google rend-il quasi systématiquement vos pages avant de les indexer ?
3:52 Faut-il abandonner le modèle des deux vagues d'indexation ?
7:35 Google utilise-t-il une sandbox ou une période de lune de miel pour les nouveaux sites ?
8:02 Google devine-t-il vraiment où classer un nouveau site avant même d'avoir des données ?
9:07 Pourquoi les nouveaux sites connaissent-ils des montagnes russes dans les SERP ?
13:59 Faut-il vraiment se préoccuper du crawl budget pour son site ?
15:37 Faut-il vraiment s'inquiéter du crawl budget sous le million d'URLs ?
16:09 Le crawl budget existe-t-il vraiment ou est-ce juste un mythe SEO ?
17:42 Google bride-t-il volontairement son crawl pour ménager vos serveurs ?
18:51 Googlebot peut-il vraiment arrêter de crawler votre site à cause de codes d'erreur serveur ?
21:57 Élaguer le contenu faible améliore-t-il vraiment le crawl budget ?
22:28 Faut-il sacrifier la vitesse serveur pour économiser du crawl budget ?
23:32 Pourquoi vos requêtes API explosent-elles votre crawl budget à votre insu ?
24:36 Le crawl budget : toutes vos URLs comptent-elles vraiment autant que Google l'affirme ?
25:39 Faut-il vraiment s'inquiéter du cache agressif de Googlebot sur vos ressources statiques ?

Ce qu'il faut comprendre

Pourquoi Google définit-il des critères si précis pour le crawl budget ?

Parce que la majorité des sites n'ont aucun problème de crawl budget. Google en a assez de voir des propriétaires de blogs de 50 pages paniquer sur ce sujet. Illyes pose ici des seuils factuels : si vos URLs sont crawlées et rafraîchies régulièrement, vous n'avez pas de souci.

Le crawl budget devient pertinent sur des catalogues de milliers de pages, des sites e-commerce massifs ou des plateformes de contenus générés par utilisateurs. Ailleurs ? C'est du temps perdu. Les logs serveur deviennent votre meilleure source de vérité — pas les estimations vagues d'outils tiers.

Qu'est-ce qu'un « taux de rafraîchissement » anormal concrètement ?

Illyes parle de sections non recrawlées pendant des mois malgré des modifications. Typiquement : vous mettez à jour une catégorie produit, changez des prix, ajoutez du contenu. Si Googlebot ne revient pas dans un délai raisonnable, c'est un indicateur.

Le délai « raisonnable » varie selon votre secteur et la fréquence historique de crawl. Un site news attend un crawl quotidien voire horaire. Un catalogue B2B stable peut tolérer une semaine. Mais plusieurs mois sans recrawl sur du contenu modifié, c'est anormal.

Les logs serveur suffisent-ils vraiment à diagnostiquer le problème ?

Oui, mais à condition de savoir les lire. Identifier les URLs jamais crawlées nécessite un croisement entre votre sitemap XML, votre base de données d'URLs publiées et vos logs bruts. Si 30 % de vos URLs produits n'apparaissent jamais dans les logs Googlebot, vous avez un problème.

L'analyse des taux de rafraîchissement exige une vue historique. Il ne s'agit pas de compter les hits Googlebot sur une journée, mais de mesurer l'écart entre la date de dernière modification d'une URL et sa dernière visite par le bot. C'est du travail d'analyse de données, pas de la simple consultation de logs.

URLs jamais crawlées : comparez vos sitemaps avec les logs sur 90 jours minimum
Taux de rafraîchissement : mesurez l'écart entre modification et recrawl pour chaque section
Seuil d'alerte : plusieurs mois sans recrawl sur du contenu modifié = problème avéré
Contexte sectoriel : un site news tolère moins de latence qu'un catalogue B2B
Volume critique : le crawl budget ne concerne que les sites de plusieurs milliers d'URLs actives

Avis d'un expert SEO

Cette déclaration est-elle cohérent avec les observations terrain ?

Absolument. Les SEO qui analysent réellement leurs logs confirment ces indicateurs depuis des années. Illyes ne dit rien de nouveau ici — il valide simplement ce que les praticiens aguerris savent déjà. Les sites avec un vrai problème de crawl budget présentent effectivement ces symptômes : URLs orphelines dans les logs, sections entières ignorées pendant des cycles de crawl complets.

Ce qui est intéressant, c'est qu'Illyes ne mentionne aucun seuil chiffré. « Des mois » sans rafraîchissement, c'est vague. Deux mois ? Six mois ? Un an ? Cette imprécision laisse une zone grise où chacun interprète selon son contexte. [A vérifier] : Google ne documente jamais publiquement les seuils exacts qui déclenchent une révision du crawl budget.

Quels signaux Google ignore-t-il volontairement dans cette déclaration ?

Illyes ne parle pas des facteurs qui influencent le crawl budget en amont : la vitesse serveur, le temps de réponse, les erreurs 5xx répétées, la qualité perçue du contenu. Tous ces éléments modulent la volonté de Googlebot de crawler votre site intensivement. Si votre serveur répond en 2 secondes, Google rationne naturellement ses visites.

Autre silence notable : l'impact du duplicate content et des paramètres d'URL. Un catalogue e-commerce avec 50 facettes génère des milliers d'URLs quasi-identiques. Googlebot détecte ça rapidement et réduit son crawl. Illyes ne mentionne pas ce cas, alors que c'est une cause majeure de problèmes de crawl budget sur les gros sites.

Dans quels cas ces indicateurs ne suffisent-ils pas ?

Quand votre architecture logique masque le problème. Imaginons un site avec 100 000 URLs, dont 80 000 sont de la pagination profonde ou des variantes inutiles. Les logs montrent un crawl régulier… mais sur les mauvaises pages. Vos contenus stratégiques, eux, sont enterrés et jamais crawlés.

Les indicateurs d'Illyes détectent l'absence de crawl, mais pas la mauvaise allocation du crawl budget. C'est là que l'analyse qualitative des logs devient indispensable : quelles sections sont crawlées ? Avec quelle profondeur ? Les URLs prioritaires sont-elles visitées plus souvent que les pages de support ? [A vérifier] : Google ne fournit aucun outil officiel pour prioriser le crawl par section métier.

Impact pratique et recommandations

Comment analyser vos logs serveur pour détecter ces indicateurs ?

Première étape : isoler les requêtes Googlebot dans vos logs bruts. User-agent contenant « Googlebot », adresses IP vérifiées via reverse DNS. Ensuite, croisez ces données avec votre liste d'URLs publiées. Tout ce qui existe côté serveur mais n'apparaît jamais dans les logs Googlebot sur 90 jours minimum est suspect.

Pour les taux de rafraîchissement, construisez un tableau croisant date de dernière modification et date de dernier crawl. Si votre CMS enregistre les timestamps de mise à jour, c'est simple. Sinon, vous devrez reconstruire cette info à partir de vos déploiements ou de vos flux de syndication. Tout écart supérieur à quelques semaines sur du contenu modifié mérite investigation.

Quelles actions concrètes si vous détectez un problème ?

Si des URLs stratégiques ne sont jamais crawlées, vérifiez d'abord qu'elles sont accessibles : pas de noindex accidentel, pas de blocage robots.txt, présentes dans le sitemap XML. Ensuite, renforcez leur visibilité interne : ajoutez des liens depuis la home ou des hubs sectoriels. Le maillage interne reste le levier numéro un pour orienter Googlebot.

Pour les sections non rafraîchies malgré des modifications, forcez un re-crawl via Search Console sur quelques URLs représentatives. Si Google refuse ou met des semaines, c'est que votre crawl budget est saturé ailleurs. Cherchez les gouffres : facettes infinies, calendriers paginés à l'ancienne, archives de blog crawlées inutilement. Bloquez ce qui ne sert pas au SEO.

Quelles erreurs éviter dans l'interprétation de ces indicateurs ?

Ne confondez pas crawl et indexation. Une URL peut être crawlée régulièrement mais jamais indexée si Google la juge de faible qualité ou dupliquée. Les logs serveur ne vous disent rien sur l'indexation — pour ça, utilisez l'API Indexing ou les rapports de couverture Search Console.

Autre piège : obsédez-vous du crawl budget uniquement si votre site dépasse les 10 000 URLs actives. En dessous, c'est rarement le problème. Google crawle sans difficulté des milliers de pages par jour sur des sites correctement structurés. Si vos pages ne sont pas indexées, cherchez d'abord du côté de la qualité du contenu, du duplicate, ou des signaux E-E-A-T.

Ces optimisations exigent une maîtrise technique pointue des logs serveur, une infrastructure d'analyse de données et une compréhension fine de l'architecture de crawl. Si vous n'avez pas les ressources internes pour ce type de diagnostic, faire appel à une agence SEO spécialisée dans l'analyse de crawl budget peut accélérer significativement le processus et éviter des erreurs coûteuses sur des sites à fort volume.

Extraire les logs Googlebot sur 90 jours minimum et vérifier les IPs par reverse DNS
Croiser la liste des URLs publiées avec les URLs crawlées pour identifier les orphelines
Mesurer l'écart entre date de modification et date de dernier crawl par section
Vérifier l'absence de blocages techniques (robots.txt, noindex, canonicals erronés)
Renforcer le maillage interne vers les URLs stratégiques jamais crawlées
Identifier et bloquer les gouffres de crawl (facettes, calendriers, archives inutiles)

Les indicateurs d'Illyes sont simples : URLs jamais crawlées et sections non rafraîchies pendant des mois. Mais leur détection exige une infrastructure d'analyse de logs solide et une compréhension fine de votre architecture. Ne perdez pas de temps sur le crawl budget si votre site fait moins de 10 000 pages — concentrez-vous sur la qualité et le maillage interne.

❓ Questions frequentes

À partir de combien d'URLs le crawl budget devient-il un vrai sujet ?

Google ne fixe pas de seuil officiel, mais l'expérience terrain montre que le crawl budget devient pertinent au-delà de 10 000 à 20 000 URLs actives. En dessous, Googlebot crawle généralement sans difficulté.

Les logs serveur sont-ils la seule source fiable pour détecter un problème de crawl budget ?

Oui, les logs serveur bruts sont la seule source de vérité factuelle sur le comportement réel de Googlebot. Search Console agrège et filtre les données, les outils tiers estiment. Seuls les logs montrent exactement ce qui a été crawlé, quand et comment.

Quelle différence entre crawl budget et indexation ?

Le crawl budget détermine combien d'URLs Googlebot visite sur votre site. L'indexation décide ensuite lesquelles sont retenues dans l'index. Une URL peut être crawlée quotidiennement mais jamais indexée si Google la juge de faible qualité ou dupliquée.

Combien de temps attendre avant de conclure à un problème de rafraîchissement ?

Illyes parle de « mois » sans préciser. En pratique, un site news doit être recrawlé en quelques heures, un e-commerce en quelques jours, un site corporate en quelques semaines. Au-delà de deux mois sur du contenu modifié, c'est anormal.

Les sitemaps XML influencent-ils le crawl budget ?

Les sitemaps signalent les URLs prioritaires à Google, mais ne garantissent pas un crawl immédiat ni une allocation de budget. Ils aident Googlebot à découvrir les URLs, mais l'architecture interne et la qualité perçue du site déterminent l'intensité du crawl.

🎥 De la même vidéo 15

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 31 min · publiée le 09/12/2020

🎥 Voir la vidéo complète sur YouTube →