Pourquoi Googlebot continue-t-il de crawler vos pages noindex et comment l'arrêter ?

Declaration officielle

Googlebot peut encore crawler les pages marquées comme noindex/nofollow. Si cela surcharge le serveur, il est possible de bloquer ces pages dans le fichier robots.txt.

7:11

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 57:08 💬 EN 📅 01/11/2016 ✂ 11 déclarations

Voir sur YouTube (7:11) →

✂ Autres déclarations de cette vidéo 10 ▾

1:38 Faut-il vraiment passer par un 302 avant un 301 lors d'une migration HTTPS ?
2:10 Pourquoi changer la structure d'URL en même temps que la migration HTTPS casse-t-il votre référencement ?
4:18 Les mots-clés dans les URL sont-ils vraiment un facteur de ranking négligeable ?
9:04 Faut-il vraiment rediriger en 302 les marques sans produits ou opter pour une 404 ?
10:05 Panda réévalue-t-il vraiment le contenu en continu ou faut-il attendre une mise à jour ?
11:46 Les outils interactifs peuvent-ils vraiment booster le classement de votre site ?
14:43 Faut-il modifier vos annotations mobiles avant le passage à l'index mobile-first ?
16:04 Les liens internes "lire plus" nuisent-ils vraiment à l'expérience utilisateur ?
22:54 Faut-il canoniser la première page ou la vue complète pour la pagination e-commerce ?
46:45 Les publicités au-dessus du pli nuisent-elles vraiment au référencement ?

Ce qu'il faut comprendre

Quelle différence entre crawler et indexer une page ?

Le crawl est la visite, l'indexation est l'enregistrement dans la base de données de Google. Googlebot peut parfaitement visiter une page sans l'ajouter à son index. C'est exactement ce qui se passe avec les pages noindex.

Quand vous ajoutez une directive noindex, vous dites à Google : "Tu peux lire cette page, mais ne la montre pas dans les résultats". Le bot doit donc la crawler pour découvrir cette instruction. C'est le paradoxe central qui échappe à beaucoup de praticiens.

Pourquoi Google continue-t-il de visiter des pages qu'il n'indexera jamais ?

Google crawle ces pages pour vérifier que la directive noindex est toujours présente. Si vous retirez le noindex, le moteur doit le détecter rapidement pour réindexer la page.

Le bot suit aussi les liens sortants des pages noindex pour découvrir d'autres contenus indexables. Une page noindex peut pointer vers des ressources importantes que Google ne veut pas manquer. Même avec nofollow, Googlebot peut choisir de suivre les liens à des fins de découverte pure.

Dans quels cas ce comportement pose-t-il problème ?

Sur un site avec des dizaines de milliers de pages non indexables (archives, filtres, sessions utilisateurs), le crawler gaspille du temps et des ressources serveur. Chaque visite d'une page noindex est une requête qui aurait pu servir à crawler du contenu stratégique.

Les sites e-commerce avec filtres à facettes explosifs sont particulièrement concernés. Un catalogue de 5000 produits peut générer 500000 combinaisons de filtres, toutes crawlables si elles ne sont pas bloquées en amont.

Le crawl consomme du budget même sur des pages explicitement marquées comme non indexables
Noindex ne bloque pas le crawler, seulement l'indexation finale du contenu
Robots.txt est le seul outil de blocage réel, mais il crée un angle mort : Google ne voit plus les directives sur ces pages
Le nofollow n'empêche pas Googlebot de suivre les liens, il indique simplement une préférence que le bot peut ignorer
La surconsommation de crawl ralentit l'actualisation des pages importantes du site

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Absolument. Les logs serveur confirment que Googlebot visite régulièrement des URLs noindex, parfois plusieurs fois par semaine selon la popularité du site. Mueller ne fait qu'officialiser ce que les analystes de crawl constatent depuis des années.

Le point sur robots.txt est plus délicat. Bloquer une URL en robots.txt alors qu'elle était déjà indexée peut figer l'URL dans l'index indéfiniment. Google ne peut plus accéder à la page pour lire le noindex, donc il conserve l'entrée par précaution. C'est documenté mais rarement appliqué correctement.

Quelles nuances faut-il apporter à cette recommandation ?

Robots.txt devrait être votre première ligne de défense, pas votre plan B. Si une section entière du site ne doit jamais être crawlée (admin, recherche interne, paramètres de session), bloquez-la dès robots.txt. N'attendez pas que Google la découvre pour placer un noindex.

Le conseil de Mueller s'adresse aux sites qui ont déjà un problème de charge serveur. Si votre infrastructure encaisse sans broncher, laisser Google crawler des pages noindex n'est pas dramatique. Le vrai enjeu est le crawl budget sur les gros sites avec des millions de pages. [A vérifier] : Google n'a jamais publié de seuil chiffré définissant un "gros site" où le crawl budget devient critique.

Quand cette règle ne s'applique-t-elle pas ?

Si vous voulez désindexer rapidement une page déjà présente dans l'index, robots.txt est contre-productif. Il faut laisser Google crawler la page avec noindex jusqu'à ce qu'elle disparaisse des SERP, puis éventuellement bloquer en robots.txt pour économiser du crawl.

Les sites de petite taille (moins de 10000 pages) ne devraient jamais sacrifier la propreté de l'index pour économiser du crawl. Votre priorité est de retirer les pages inutiles de l'index, pas de protéger votre serveur d'un trafic bot négligeable.

Attention : combiner noindex et robots.txt sur la même URL est une erreur classique qui empêche la désindexation. Choisissez l'un ou l'autre selon votre objectif.

Impact pratique et recommandations

Que faut-il faire concrètement si le crawl surcharge mon serveur ?

Commencez par analyser vos logs serveur pour identifier les sections les plus crawlées. Vous cherchez des patterns : paramètres URL qui explosent, pages paginées infinies, filtres redondants. Splunk, Screaming Frog Log Analyzer ou même des scripts Python basiques font l'affaire.

Une fois les gouffres à crawl identifiés, bloquez-les en robots.txt si vous êtes certain qu'ils n'ont aucune valeur SEO. Typiquement : /admin/, /cart/, /checkout/, les paramètres de tri et de session. Testez l'impact sur la charge serveur pendant 2-3 semaines avant de valider la stratégie.

Comment gérer les pages qui doivent disparaître de l'index ?

Processus en deux temps. D'abord, retirez robots.txt si ces URLs y sont bloquées. Laissez Google les crawler avec noindex pendant plusieurs semaines jusqu'à confirmation de désindexation dans Search Console. Seulement après, vous pouvez les rebloquer en robots.txt pour économiser du crawl.

Pour accélérer, utilisez l'outil de suppression d'URL dans Search Console, mais comprenez que c'est temporaire (6 mois). La directive noindex doit rester en place sur la page elle-même pour une suppression durable. Ne comptez jamais uniquement sur l'outil de suppression sans noindex côté serveur.

Quelles erreurs éviter lors de l'optimisation du crawl budget ?

Ne bloquez jamais en robots.txt une URL qui contient du contenu que vous voulez indexer. Ça semble évident, mais après une refonte, des sections stratégiques se retrouvent régulièrement bloquées par erreur. Auditez robots.txt à chaque déploiement majeur.

Évitez de modifier robots.txt et noindex en même temps sur les mêmes URLs. Procédez par étapes et mesurez. Un changement brutal peut faire disparaître des milliers de pages de l'index ou au contraire les y maintenir en zombie pendant des mois.

Analysez vos logs pour quantifier le crawl réel sur les pages noindex
Bloquez en robots.txt uniquement les sections sans valeur SEO jamais destinées à l'indexation
Pour désindexer, retirez d'abord le blocage robots.txt, appliquez noindex, attendez la désindexation, puis rebloquez si nécessaire
Testez toute modification de robots.txt sur un échantillon d'URLs avant généralisation
Surveillez le taux de crawl dans Search Console après chaque changement structurel
Documentez votre stratégie robots.txt/noindex pour éviter les régressions lors des refontes

La gestion du crawl budget et des directives d'indexation relève d'un équilibre technique délicat entre économie de ressources et visibilité dans l'index. Sur des infrastructures complexes avec plusieurs centaines de milliers d'URLs, ces arbitrages nécessitent une expertise pointue et un suivi continu. Une agence SEO spécialisée peut auditer votre architecture, analyser vos logs serveur et mettre en place une stratégie sur mesure pour maximiser l'efficacité du crawl tout en protégeant vos ressources techniques.

❓ Questions frequentes

Si je bloque une page en robots.txt, Google peut-il quand même l'indexer ?

Oui, si la page reçoit des backlinks externes. Google peut l'ajouter à l'index en se basant uniquement sur les ancres et le contexte des liens, sans jamais crawler la page elle-même. C'est pourquoi on voit parfois des URLs bloquées apparaître dans les SERP avec la mention "Aucune information disponible".

Faut-il mettre noindex ET nofollow sur les pages à faible valeur ?

Nofollow n'empêche pas réellement Googlebot de suivre les liens, c'est juste un signal de préférence. Si vous voulez vraiment isoler une page, utilisez noindex et ne la liez pas depuis vos pages indexables. Le nofollow est devenu un indice, pas une directive stricte.

Combien de temps Google continue-t-il de crawler une page après l'ajout d'un noindex ?

Indéfiniment, mais avec une fréquence décroissante. Google vérifie périodiquement que la directive est toujours présente. Sur un site actif, attendez-vous à des visites mensuelles minimum, parfois hebdomadaires selon le PageRank interne de la page.

Peut-on bloquer Googlebot mais autoriser les autres moteurs à crawler ?

Oui, via des directives user-agent spécifiques dans robots.txt (User-agent: Googlebot). Mais vous fragmentez alors votre indexation entre moteurs, ce qui complique le suivi. Rarement recommandé sauf cas très particuliers de syndication de contenu.

Le crawl budget est-il un problème pour un site de moins de 50000 pages ?

Rarement. Google affirme que la plupart des sites n'ont pas à s'en préoccuper. Le crawl budget devient critique sur les plateformes volumineuses avec du contenu qui change fréquemment (actualités, e-commerce massif, petites annonces). En dessous de 50000 pages relativement stables, concentrez-vous d'abord sur la qualité du contenu et la structure de liens.

🎥 De la même vidéo 10

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 57 min · publiée le 01/11/2016

🎥 Voir la vidéo complète sur YouTube →