Pourquoi Google met-il 3 à 6 mois à rafraîchir l'intégralité d'un gros site ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Pour les gros sites, Google ne peut pas tout crawler en un jour. Le crawl budget équilibre la découverte de nouveau contenu et le rafraîchissement. Un site complet peut prendre de 3 à 6 mois à être entièrement rafraîchi, avec priorité aux pages importantes.

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

💬 EN 📅 13/11/2020 ✂ 40 déclarations

Voir sur YouTube →

✂ Autres déclarations de cette vidéo 39 ▾

📅

Declaration officielle du 13 novembre 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Google rafraîchit-il vos données produits Merchant Center plusieurs fois par jou... Irina Tuduce · 5 septembre 2024 Voir la declaration →

TL;DR

Google ne peut pas crawler l'intégralité d'un gros site en un jour. Le crawl budget force le moteur à arbitrer entre découverte de nouveau contenu et rafraîchissement des pages existantes. Résultat : un site complet peut prendre 3 à 6 mois à être entièrement recrawlé, avec une priorité donnée aux pages jugées importantes par l'algorithme.

Ce qu'il faut comprendre

John Mueller pose ici un chiffre qui bouscule certaines idées reçues : un site de grande taille peut attendre 3 à 6 mois avant que Google n'ait recrawlé l'intégralité de ses pages. Ce délai n'est pas un bug, c'est une conséquence directe du crawl budget.

Le crawl budget, c'est l'allocation de ressources que Google consacre à ton site. Plus ton site est gros, plus Google doit faire des choix : recrawler les pages existantes ou explorer les nouvelles URL. Et c'est là que ça coince.

Qu'est-ce que Google entend par "gros site" ?

Mueller ne donne pas de seuil précis. On parle généralement de sites avec plusieurs dizaines de milliers de pages indexables. Un e-commerce avec 50 000 fiches produits, un site média avec 200 000 articles, un annuaire avec des millions d'URL — tous sont concernés.

Le volume brut d'URL n'est pas le seul critère. La profondeur de crawl, la qualité des liens internes, le temps de réponse serveur et la fraîcheur perçue du contenu influencent aussi la fréquence de passage de Googlebot.

Pourquoi Google ne peut-il pas tout crawler rapidement ?

Soyons honnêtes : Google ne va pas mobiliser des serveurs infinis pour ton site. Le crawl a un coût — bande passante, calcul, stockage. Google optimise donc son passage en fonction de la popularité du site, de sa vitesse de réponse et de la fraîcheur attendue du contenu.

Un site qui publie 10 articles par jour recevra plus de crawl qu'un site dormant. Un site rapide (TTFB < 200 ms) sera crawlé plus souvent qu'un site lent. Et un site avec un fort PageRank interne concentre le crawl sur ses pages stratégiques.

Comment Google priorise-t-il les pages à crawler ?

Mueller parle de "priorité aux pages importantes". Concrètement, Google croise plusieurs signaux : le PageRank (interne et externe), la fréquence de mise à jour détectée historiquement, les liens entrants, et la popularité utilisateur (CTR, temps passé, signaux d'engagement).

Une fiche produit best-seller mise à jour chaque semaine sera recrawlée plus souvent qu'un article de blog publié il y a 3 ans et jamais retouché. C'est une optimisation algorithmique — Google veut maximiser la fraîcheur de l'index sans gaspiller de ressources.

Le crawl budget est fini : Google ne peut pas tout crawler en un jour, même sur un site moyen.
La priorité va aux pages importantes : PageRank, fraîcheur, popularité utilisateur orientent le crawl.
Un site complet peut prendre 3 à 6 mois à être entièrement rafraîchi — c'est normal, pas un dysfonctionnement.
La vitesse serveur compte : un TTFB rapide augmente le crawl budget alloué.
Les nouveaux contenus sont prioritaires : Google équilibre découverte et rafraîchissement.

Avis d'un expert SEO

Cette déclaration est cohérente avec les observations terrain — mais elle reste volontairement floue sur plusieurs points critiques. Mueller ne précise pas à partir de combien de pages on entre dans la catégorie "gros site", ni comment Google calcule concrètement la "priorité" des pages.

Les 3 à 6 mois annoncés correspondent à ce qu'on observe sur des sites e-commerce de 50 000+ pages. Mais ce chiffre cache une réalité plus nuancée : certaines pages sont recrawlées quotidiennement, d'autres attendent plusieurs mois. La moyenne est trompeuse.

Cette déclaration est-elle cohérente avec les pratiques observées ?

Oui. Sur les gros sites, on constate régulièrement des écarts de 2 à 4 mois entre la modification d'une page profonde et son recrawl effectif. Les pages orphelines ou à faible PageRank interne peuvent attendre bien plus longtemps — voire ne jamais être recrawlées si elles ne reçoivent aucun lien.

Les sites qui optimisent leur maillage interne et leur vitesse serveur constatent une augmentation mesurable du crawl budget. Un site qui passe de 800 ms à 150 ms de TTFB peut voir son crawl quotidien doubler ou tripler. Ce n'est pas anecdotique.

Quelles nuances faut-il apporter ?

Mueller parle de "rafraîchissement complet", mais Google ne recrawle pas toutes les pages avec la même profondeur. Certaines URL sont simplement vérifiées en HTTP 200 sans que le contenu soit réellement réanalysé. D'autres subissent un rerendering JavaScript complet — ce qui coûte bien plus cher en ressources. [A vérifier]

Le chiffre de 3 à 6 mois ne s'applique pas aux sites d'actualité ou aux sites avec un taux de mise à jour élevé. Un site média publiant 50 articles par jour bénéficie d'un crawl bien plus agressif. Google adapte son comportement au rythme de publication détecté.

Dans quels cas cette règle ne s'applique-t-elle pas ?

Les petits sites (< 10 000 pages) sont généralement recrawlés bien plus vite — souvent en quelques semaines. Les sites avec un fort trafic et un engagement utilisateur élevé reçoivent aussi plus de crawl. Et les sites qui utilisent IndexNow peuvent notifier Google en temps réel des modifications, court-circuitant partiellement le crawl budget.

Attention : un site lent (TTFB > 1 s) ou avec des erreurs serveur fréquentes verra son crawl budget drastiquement réduit. Google ne va pas insister sur un site qui lui coûte cher en ressources. Dans ces cas, le délai de rafraîchissement peut exploser — on a observé des sites attendre 9 à 12 mois pour certaines pages.

Attention : Si vous constatez un crawl anormalement bas malgré une vitesse serveur correcte, vérifiez les erreurs 5xx dans Search Console et le budget gaspillé sur des URL inutiles (paramètres, facettes, doublons). Un crawl inefficace est souvent un symptôme de problèmes techniques sous-jacents.

Impact pratique et recommandations

Que faut-il faire concrètement pour optimiser le crawl budget ?

Premier levier : la vitesse serveur. Un TTFB rapide (< 200 ms) augmente mécaniquement le nombre de pages que Google peut crawler dans le même laps de temps. Optimise ton hébergement, active un CDN, compresse les réponses (Brotli ou Gzip), et évite les requêtes BDD coûteuses sur les pages prioritaires.

Deuxième levier : le maillage interne. Les pages orphelines ou à plus de 5 clics de la home sont rarement crawlées. Renforce les liens vers tes pages stratégiques, crée des hubs thématiques, et utilise la pagination ou les filtres pour rendre tes contenus accessibles rapidement.

Quelles erreurs éviter pour ne pas gaspiller son crawl budget ?

Ne laisse pas Google crawler des URL inutiles : facettes infinies, paramètres de tri, pages de résultats vides, doublons. Bloque-les via robots.txt ou la balise noindex. Chaque URL inutile crawlée, c'est une URL utile qui attendra.

Évite les redirections en chaîne (3xx → 3xx → 200). Chaque saut consomme du budget. Évite aussi les erreurs 404 massives — Google finit par réduire son crawl sur les sites instables. Et attention aux boucles de redirection : elles bloquent Googlebot et tuent ton budget.

Comment vérifier que mon site est bien crawlé ?

Utilise la section "Statistiques sur l'exploration" dans Search Console. Regarde le nombre de pages crawlées par jour, le temps de téléchargement moyen, et les erreurs d'exploration. Un crawl qui chute brutalement signale un problème technique ou une perte de priorité.

Croise avec tes logs serveur : tu verras quelles pages Google crawle réellement, à quelle fréquence, et combien de budget il alloue à des URL inutiles. Des outils comme Oncrawl ou Botify permettent de croiser logs et Search Console pour un diagnostic précis.

Optimiser le TTFB (< 200 ms) pour maximiser le crawl par session
Renforcer le maillage interne vers les pages stratégiques
Bloquer les URL inutiles (facettes, doublons, paramètres) via robots.txt
Surveiller les Statistiques sur l'exploration dans Search Console
Analyser les logs serveur pour détecter le gaspillage de crawl budget
Utiliser IndexNow pour notifier Google des modifications en temps réel

Le crawl budget est une contrainte réelle sur les gros sites. L'optimiser demande une combinaison de performance technique (vitesse serveur, architecture), de stratégie de contenu (priorisation, fraîcheur), et de monitoring continu (logs, Search Console).

Ces optimisations peuvent être complexes à orchestrer seul, surtout sur des plateformes techniques lourdes. Si ton site dépasse les 20 000 pages ou si tu constates un crawl anormalement bas, un accompagnement spécialisé peut accélérer les résultats — une agence SEO technique pourra auditer ton architecture, identifier les fuites de budget, et mettre en place un plan d'optimisation sur mesure.

❓ Questions frequentes

Combien de pages Google peut-il crawler par jour sur mon site ?

Cela dépend de la vitesse serveur, de la popularité du site et de la fraîcheur du contenu. Un site moyen reçoit entre 500 et 5000 requêtes Googlebot par jour. Un site rapide (TTFB < 200 ms) peut monter à 10 000+.

Comment savoir si mon site manque de crawl budget ?

Regarde les Statistiques sur l'exploration dans Search Console. Si le nombre de pages crawlées par jour est inférieur à 10% de ton total indexable, ou si des pages stratégiques ne sont pas recrawlées depuis 2+ mois, c'est un signal.

Les sitemaps XML augmentent-ils le crawl budget ?

Non, ils aident Google à découvrir des URL mais n'augmentent pas le budget alloué. Un sitemap mal construit (URL inutiles, erreurs 404) peut même gaspiller du budget. Garde-le propre et limité aux pages indexables stratégiques.

Faut-il utiliser IndexNow pour contourner le crawl budget ?

IndexNow notifie Google (et Bing) des modifications en temps réel, ce qui peut accélérer le recrawl des pages modifiées. C'est un complément utile, pas un remplacement du crawl classique. À tester si tu publies souvent.

Un CDN améliore-t-il vraiment le crawl budget ?

Oui, si le CDN réduit le TTFB. Google crawle plus de pages par session quand le serveur répond vite. Mais attention : certains CDN mal configurés peuvent dégrader le TTFB au lieu de l'améliorer. Mesure avant et après.

🏷 Sujets associes

crawl budget indexation googlebot maillage interne TTFB logs serveur PageRank robots.txt

Anciennete & Historique Contenu Crawl & Indexation

🎥 De la même vidéo 39

Autres enseignements SEO extraits de cette même vidéo Google Search Central · publiée le 13/11/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Redirections 301 et requêtes site: conservent l'hi...

Redirection 301 vs canonical pour fusion de sites...

« Retour aux resultats