Qu'est-ce que la demande de crawl et comment Google la calcule-t-il vraiment ?

Declaration officielle

La demande de crawl représente à quel point le contenu est désiré par Google. Elle est affectée par les URLs qui n'ont pas encore été crawlées et par l'estimation de Google sur la fréquence de changement du contenu des URLs connues.

25:55

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 161h29 💬 EN 📅 03/03/2021 ✂ 14 déclarations

Voir sur YouTube (25:55) →

✂ Autres déclarations de cette vidéo 13 ▾

9:53 Le budget de crawl est-il vraiment inutile pour les petits sites ?
15:14 Comment Google décide-t-il quelles pages crawler en priorité sur votre site ?
33:45 Comment Google calcule-t-il le taux de crawl pour ne pas planter vos serveurs ?
37:38 Le crawl budget augmente-t-il vraiment avec la vitesse de votre serveur ?
41:11 Pourquoi un site lent tue-t-il votre taux de crawl Google ?
43:17 Peut-on vraiment limiter le taux de crawl de Google sans risquer son référencement ?
46:04 Le budget de crawl, simple combinaison de taux et de demande ?
61:43 Pourquoi Google réserve-t-il le rapport Crawl Stats aux propriétés de domaine uniquement ?
69:24 Les ressources externes faussent-elles vos statistiques de crawl ?
77:09 Le temps de réponse exclut-il vraiment le rendu de page dans Search Console ?
82:21 Pourquoi une chute brutale des requêtes de crawl peut-elle révéler un problème de robots.txt ou de temps de réponse ?
87:00 Le temps de réponse serveur influence-t-il vraiment le taux de crawl de Googlebot ?
101:16 Pourquoi un code 503 sur robots.txt peut-il bloquer tout le crawl de votre site ?

Ce qu'il faut comprendre

Pourquoi Google parle-t-il de « désir » de crawler ?

Le terme « demande de crawl » (crawl demand en anglais) introduit une notion subjective : le désir. Google ne crawle pas tout, tout le temps. Il priorise les contenus qu'il juge utiles à indexer en fonction de signaux multiples.

Cette définition officielle révèle que Google estime activement si une URL mérite d'être re-crawlée ou non. Cette estimation repose sur l'historique de changement observé : une page qui évolue souvent sera crawlée plus fréquemment qu'une page stable depuis des mois.

Quels sont les deux facteurs clés de la demande de crawl ?

Le premier facteur concerne les URLs non encore crawlées. Dès que Googlebot découvre une nouvelle URL (via un sitemap, un lien interne, un backlink), elle entre dans une file d'attente. La priorité de crawl de cette URL dépendra de sa source, de sa profondeur dans le site, et de la réputation du domaine.

Le second facteur est l'estimation de la fréquence de changement du contenu des URLs déjà connues. Google observe l'historique : si une page est modifiée chaque semaine, il ajustera la fréquence de recrawl en conséquence. Si elle reste identique pendant des mois, le crawl s'espacera naturellement.

Comment Google estime-t-il la fréquence de changement ?

Google ne détaille pas l'algorithme exact, mais on sait qu'il utilise des signaux historiques : dates de modification observées lors des précédents crawls, balises Last-Modified, sitemaps XML avec lastmod, et sans doute des signaux de fraîcheur du contenu (dates dans le texte, nouveaux liens, etc.).

Un site qui actualise régulièrement ses contenus envoie un signal clair : il y a une probabilité élevée que de nouvelles modifications apparaissent bientôt. Google ajuste donc la fréquence de recrawl à la hausse. À l'inverse, un contenu evergreen stable depuis longtemps sera recrawlé plus rarement, même si la page est importante.

La demande de crawl n'est pas fixe : elle évolue en fonction du comportement historique du site
Les URLs non crawlées alimentent la file d'attente et influencent directement la demande globale
L'estimation de changement repose sur l'observation des modifications passées, pas sur une déclaration d'intention
Un site qui publie du nouveau contenu régulièrement génère mécaniquement une demande de crawl plus forte
Google priorise les URLs à forte valeur ajoutée estimée : autorité du domaine, popularité de la page, profondeur de lien

Avis d'un expert SEO

Cette définition est-elle cohérente avec les observations terrain ?

Oui, dans les grandes lignes. Les SEO constatent depuis des années que les sites actifs (blogs, médias, sites e-commerce avec des mises à jour produits fréquentes) bénéficient d'un recrawl plus rapide que les sites vitrine statiques. La notion d'estimation de fréquence de changement colle avec ces observations.

En revanche, Google reste volontairement flou sur les poids respectifs des deux facteurs. Quelle part de la demande de crawl est liée aux URLs non crawlées versus l'estimation de changement ? Aucune donnée chiffrée. [À vérifier] : dans quelle mesure un site avec peu de nouvelles URLs mais un contenu très dynamique surpasse-t-il un site avec beaucoup de nouvelles pages mais peu de mises à jour ?

Quelles nuances faut-il apporter à cette déclaration ?

Première nuance : la demande de crawl n'est qu'une composante du budget de crawl global. Même si la demande est forte, le budget alloué peut être limité par d'autres facteurs (santé du serveur, taux d'erreurs, qualité perçue du contenu). Google peut souhaiter crawler plus, mais se limiter pour ne pas surcharger le serveur ou parce qu'il juge le site de faible valeur.

Deuxième nuance : l'estimation de fréquence de changement est basée sur l'historique, pas sur les promesses. Si vous activez subitement un rythme de publication intense après des mois d'inactivité, Google ne va pas instantanément ajuster sa fréquence de crawl. Il lui faut du temps pour observer le nouveau pattern et réviser son estimation à la hausse. Patience requise.

Dans quels cas cette règle ne s'applique-t-elle pas pleinement ?

Sur les sites à très forte autorité (médias de référence, sites institutionnels), Google peut crawler beaucoup plus agressivement même sans changements fréquents, parce que la probabilité qu'une information importante apparaisse est jugée élevée. La demande de crawl est donc biaisée par l'autorité du domaine.

Sur les petits sites ou nouveaux domaines, même une forte activité éditoriale ne garantit pas un crawl rapide. La demande peut être élevée en théorie, mais le budget de crawl alloué reste faible tant que Google n'a pas constaté la qualité et la stabilité du contenu. Le cercle vicieux : peu de crawl → indexation lente → faible visibilité → peu de signaux positifs → demande de crawl stagnante.

Attention : ne confondez pas demande de crawl et budget de crawl. Google peut désirer crawler davantage (demande forte) mais limiter le nombre de requêtes réelles (budget contraint). C'est la combinaison des deux qui détermine la fréquence de crawl effective.

Impact pratique et recommandations

Que faut-il faire concrètement pour augmenter la demande de crawl ?

Pour maximiser la demande de crawl, deux leviers principaux : alimenter la file d'URLs non crawlées et démontrer une fréquence de changement élevée sur les URLs existantes. Concrètement, publiez régulièrement du nouveau contenu de qualité (nouvelles pages, nouveaux articles) et actualisez vos contenus existants de manière substantielle et visible.

Soumettez vos nouvelles URLs via le sitemap XML dès leur publication. Utilisez la Search Console pour demander l'indexation manuelle des pages stratégiques. Créez un maillage interne solide pour que Googlebot découvre rapidement les nouvelles pages via des liens depuis des pages déjà crawlées fréquemment (homepage, rubriques principales).

Quelles erreurs éviter pour ne pas diluer la demande de crawl ?

Ne multipliez pas les URLs inutiles ou dupliquées. Chaque URL en file d'attente consomme de l'attention de Googlebot. Si vous générez des milliers de pages de faible valeur (filtres, tris, pages paginées sans contenu unique), vous diluez la demande de crawl sur du contenu non prioritaire.

Évitez les modifications cosmétiques fréquentes (changement de date de publication sans vraie mise à jour, ajout de bannières publicitaires). Google détecte les vrais changements de contenu substantiel. Si vous modifiez souvent sans apporter de valeur, l'estimation de fréquence de changement ne se traduira pas par un crawl plus fréquent, au contraire : Google apprendra que vos modifications sont superficielles.

Comment vérifier que mon site bénéficie d'une demande de crawl optimale ?

Analysez les logs serveur pour mesurer la fréquence de passage de Googlebot sur vos différentes typologies de pages. Comparez la fréquence de crawl des pages récemment créées versus les pages anciennes, et des pages mises à jour régulièrement versus les pages statiques. Un écart significatif confirme que Google ajuste bien son crawl en fonction de la demande estimée.

Utilisez le rapport de couverture de la Search Console pour identifier les URLs découvertes mais non encore crawlées. Un grand nombre d'URLs en attente peut indiquer soit un problème de budget de crawl (serveur lent, erreurs), soit une faible demande (pages jugées peu prioritaires). Croisez avec les données de crawl des logs pour diagnostiquer.

Publier régulièrement du contenu nouveau et de qualité pour alimenter la file d'URLs non crawlées
Actualiser substantiellement les contenus existants pour augmenter l'estimation de fréquence de changement
Soumettre les nouvelles URLs via sitemap XML et Search Console dès publication
Optimiser le maillage interne pour accélérer la découverte des nouvelles pages
Éviter la création d'URLs inutiles ou dupliquées qui diluent la demande de crawl
Analyser les logs serveur pour mesurer la fréquence réelle de crawl par typologie de page

La demande de crawl est un levier essentiel pour accélérer l'indexation et la prise en compte des mises à jour. En pilotant activement la fréquence de publication et la qualité des actualisations, vous envoyez un signal clair à Google : votre contenu mérite un crawl fréquent. Ces optimisations nécessitent une analyse fine des logs, une stratégie éditoriale cohérente et une architecture technique maîtrisée — des aspects complexes à orchestrer seul. Si vous souhaitez maximiser votre efficacité de crawl sans perdre des mois en tests, faire appel à une agence SEO spécialisée pour un accompagnement personnalisé peut s'avérer un investissement pertinent.

❓ Questions frequentes

La demande de crawl est-elle la même chose que le budget de crawl ?

Non. La demande de crawl représente le désir de Google de crawler un contenu, tandis que le budget de crawl est la limite de requêtes que Google accepte d'effectuer sur un site. Une demande forte ne garantit pas un budget élevé.

Comment Google estime-t-il la fréquence de changement d'une page ?

Google se base sur l'historique des modifications observées lors des crawls précédents, les balises Last-Modified, les sitemaps XML, et probablement des signaux de fraîcheur du contenu comme les dates dans le texte ou les nouveaux liens.

Un site statique peut-il avoir une demande de crawl élevée ?

Difficile. Si le site ne publie jamais de nouveau contenu et ne met pas à jour ses pages existantes, Google estimera une faible fréquence de changement et réduira la demande de crawl. L'autorité du domaine peut compenser partiellement.

Modifier la date de publication d'un article augmente-t-elle la demande de crawl ?

Pas si le contenu reste identique. Google détecte les modifications substantielles, pas les changements cosmétiques. Une mise à jour réelle du texte est nécessaire pour influencer l'estimation de fréquence de changement.

Les URLs bloquées en robots.txt influencent-elles la demande de crawl ?

Oui indirectement. Si Google découvre des URLs qu'il ne peut pas crawler, elles restent en file d'attente théorique mais ne consomment pas de budget. Cela peut créer une demande latente non satisfaite, signalant un problème de configuration.

🎥 De la même vidéo 13

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 161h29 · publiée le 03/03/2021

🎥 Voir la vidéo complète sur YouTube →