Robots.txt vs Noindex : lequel bloque vraiment l'indexation de vos pages ?

Declaration officielle

Bloquer l'indexation avec 'robots.txt' empêche Google de voir le contenu mais n'arrête pas le suivi des liens vers le site. 'Noindex' enlève le contenu de l'index mais nécessite d'abord que le contenu soit accessible pour l'application de la directive.

26:41

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 1h00 💬 EN 📅 16/03/2017 ✂ 10 déclarations

Voir sur YouTube (26:41) →

✂ Autres déclarations de cette vidéo 9 ▾

2:00 Les publicités Google Ads pénalisent-elles vraiment le référencement naturel ?
13:40 Les liens nofollow transmettent-ils vraiment zéro PageRank ?
23:21 Les liens internes influencent-ils vraiment le PageRank de vos pages ?
29:53 AMP booste-t-il vraiment votre classement Google ou est-ce un mythe SEO ?
34:32 Peut-on cumuler plusieurs schémas de balisage sur une même page sans risque SEO ?
48:00 Pourquoi Google tolère-t-il le contenu dupliqué dans la documentation technique ?
54:50 La modération des commentaires peut-elle déclencher une action manuelle Google ?
55:52 Mettre à jour son contenu sans changer la date améliore-t-il vraiment le classement ?
57:00 Google Web Light : Faut-il optimiser différemment pour les connexions lentes ?

Ce qu'il faut comprendre

Pourquoi robots.txt ne suffit-il pas à désindexer une page ?

Le fichier robots.txt fonctionne comme un panneau "Entrée interdite" posé devant une porte. Googlebot respecte cette consigne et ne crawle pas l'URL bloquée. Problème : cette URL peut quand même apparaître dans les résultats de recherche si des liens externes pointent vers elle.

Google détecte ces backlinks, constate qu'une ressource existe à cette adresse, mais ne peut pas accéder au contenu pour en vérifier la nature. Résultat ? Un snippet vide avec uniquement l'URL visible dans les SERP. Ce n'est pas techniquement une indexation du contenu, mais l'URL reste présente dans l'index.

Comment fonctionne réellement la directive noindex ?

La balise meta robots noindex (ou l'en-tête HTTP X-Robots-Tag: noindex) indique explicitement à Google de retirer la page de son index. Mais pour que cette instruction soit lue et appliquée, le bot doit d'abord pouvoir crawler la page.

C'est là que le piège se referme : si vous bloquez l'URL dans robots.txt, Googlebot ne peut jamais atteindre le code HTML où se trouve la balise noindex. L'instruction reste invisible, donc inefficace. La page bloquée en robots.txt avec un noindex dans le code source reste potentiellement listée dans l'index via ses backlinks.

Quel est l'impact sur le suivi des liens sortants ?

Point crucial souvent négligé : robots.txt n'empêche pas Google de suivre les liens qui pointent vers l'URL bloquée. Le moteur détecte ces signaux de popularité et les intègre dans son graphe de liens, même sans accéder au contenu.

En revanche, si vous utilisez noindex sans robots.txt, Google crawle la page, lit la directive, retire l'URL de l'index ET peut suivre les liens présents dans le contenu de cette page. Le PageRank continue de circuler via ces liens sortants, ce qui peut être stratégiquement utile pour des pages intermédiaires dans votre architecture.

Robots.txt bloque le crawl mais n'empêche pas l'apparition de l'URL dans l'index si des backlinks existent
Noindex retire effectivement la page de l'index mais nécessite un crawl préalable pour être lu
Combiner robots.txt ET noindex sur la même URL crée un conflit technique : le noindex ne sera jamais appliqué
Une URL bloquée en robots.txt peut quand même consommer du crawl budget si Googlebot tente régulièrement d'y accéder
Le suivi des liens vers une URL bloquée en robots.txt reste actif, contrairement à une idée répandue

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Oui, et c'est même une confirmation bienvenue d'un comportement observé depuis des années. Sur des audits de crawl budget, on voit régulièrement des URLs bloquées en robots.txt qui continuent d'apparaître dans les logs serveur : Googlebot tente de les crawler périodiquement, notamment si elles reçoivent de nouveaux backlinks.

Le point sur le suivi des liens est moins documenté publiquement mais correspond aux tests menés sur des sites à forte volumétrie. Une page bloquée en robots.txt avec des liens internes sortants ne transmet certes pas de PageRank classique (puisque non crawlée), mais les liens externes pointant vers elle génèrent des signaux de popularité détectables par l'algorithme.

Quelles nuances faut-il apporter à cette règle ?

Google précise que noindex "nécessite d'abord que le contenu soit accessible", mais ne détaille pas le délai de traitement. En pratique, une page crawlée avec noindex peut rester visible dans l'index pendant plusieurs jours, voire semaines, avant désindexation complète. [À vérifier] selon le crawl budget alloué au site.

Autre zone grise : que se passe-t-il si vous bloquez une URL en robots.txt APRÈS qu'elle ait été indexée avec noindex ? Théoriquement, le noindex déjà appliqué devrait maintenir la désindexation, mais Googlebot ne peut plus re-crawler pour confirmer la directive. Certains praticiens ont observé des réindexations partielles dans ce cas de figure.

Dans quels cas cette logique pose-t-elle problème ?

Le scénario classique : vous héritez d'un site avec des milliers de pages bloquées en robots.txt que le client veut désindexer "proprement". Retirer ces lignes du robots.txt pour laisser Googlebot crawler les noindex consomme un crawl budget massif sur des URLs sans valeur.

Solution pragmatique mais rarement évoquée : utiliser l'en-tête HTTP X-Robots-Tag: noindex dans la réponse serveur, même pour les URLs bloquées en robots.txt. Techniquement, Googlebot ne devrait pas voir cet en-tête puisqu'il ne crawle pas, mais certains témoignages terrain suggèrent que Google pourrait quand même le détecter lors de vérifications ponctuelles. [À vérifier] — les docs officielles restent floues sur ce point.

Attention : ne jamais bloquer en robots.txt des pages avec balise canonical pointant vers une autre URL. Le canonical ne sera jamais lu, créant des signaux contradictoires dans l'index.

Impact pratique et recommandations

Que faut-il faire concrètement pour désindexer des pages ?

La méthode propre : retirer les URLs du robots.txt, ajouter une balise meta robots noindex dans le code HTML ou via X-Robots-Tag en en-tête HTTP, puis laisser Googlebot crawler ces pages. Surveiller la désindexation via Search Console, section "Couverture" ou l'outil d'inspection d'URL.

Pour accélérer le processus sur des volumes importants, soumettez un sitemap XML contenant uniquement les URLs à désindexer. Contre-intuitif, mais ça force Google à prioriser le crawl de ces pages pour y lire le noindex. Retirer le sitemap une fois la désindexation constatée.

Quelles erreurs éviter absolument dans cette configuration ?

Erreur numéro un : bloquer en robots.txt des sections entières (ex: /blog/) tout en ajoutant noindex dans les templates. Le noindex ne sera jamais appliqué. Si des backlinks pointent vers ces URLs, elles apparaîtront dans l'index avec des snippets vides.

Erreur numéro deux : utiliser robots.txt pour "cacher" du contenu dupliqué ou de mauvaise qualité. Google ne voit pas le contenu mais détecte quand même l'URL via les liens. Mieux vaut noindex + allow en robots.txt, ou carrément supprimer les pages avec redirections 301 vers du contenu consolidé.

Comment vérifier que votre configuration est cohérente ?

Auditez votre robots.txt ligne par ligne : toute URL bloquée doit avoir une raison technique valable (fichiers système, paramètres de session, duplicate content géré autrement). Si l'objectif est la désindexation, c'est le mauvais outil.

Crawlez votre site avec Screaming Frog ou Oncrawl en mode "Googlebot" pour identifier les pages avec noindex ET bloquées en robots.txt. Ces conflits sont plus fréquents qu'on ne le pense, surtout sur des CMS avec plugins SEO mal configurés. Vérifiez aussi les en-têtes HTTP : certains serveurs renvoient X-Robots-Tag: noindex sur des URLs déjà bloquées, créant une redondance inutile.

Retirer du robots.txt toute URL que vous souhaitez réellement désindexer
Implémenter noindex via balise meta ou en-tête X-Robots-Tag selon votre stack technique
Soumettre temporairement un sitemap des URLs à désindexer pour accélérer le crawl
Monitorer la désindexation dans Search Console avec des alertes sur les évolutions de couverture
Auditer régulièrement les conflits robots.txt + noindex avec un crawler technique
Documenter chaque ligne de votre robots.txt : pourquoi cette URL est-elle bloquée ?

La gestion fine de l'indexation demande une compréhension précise des mécanismes de crawl et des directives disponibles. Robots.txt contrôle l'accès, noindex contrôle la présence dans l'index : ce sont deux leviers complémentaires, pas interchangeables. Sur des sites à forte volumétrie ou des architectures complexes (marketplaces, médias, e-commerce multi-langues), ces configurations peuvent rapidement devenir critiques pour le crawl budget et la visibilité organique. Face à ces enjeux techniques, l'accompagnement par une agence SEO spécialisée permet d'éviter les erreurs coûteuses et d'optimiser finement chaque directive selon vos objectifs métier.

❓ Questions frequentes

Peut-on utiliser robots.txt ET noindex sur la même URL ?

Techniquement oui, mais c'est inefficace : si robots.txt bloque le crawl, Googlebot ne peut jamais lire la directive noindex présente dans le code. L'URL risque de rester dans l'index via ses backlinks.

Une page bloquée en robots.txt peut-elle quand même apparaître dans Google ?

Oui, l'URL peut apparaître dans les résultats si des liens externes pointent vers elle. Google indexe l'existence de l'URL mais affiche un snippet vide car il ne peut pas accéder au contenu.

Comment désindexer rapidement des milliers de pages bloquées en robots.txt ?

Retirer les lignes du robots.txt, ajouter noindex dans les templates concernés, puis soumettre un sitemap XML contenant ces URLs pour forcer le crawl. Surveiller la désindexation dans Search Console.

Le PageRank circule-t-il via une page en noindex ?

Oui, si la page est crawlable (pas bloquée en robots.txt), Google suit les liens sortants et le PageRank circule normalement. C'est différent d'une page bloquée en robots.txt où les liens sortants ne sont pas détectés.

Quel impact sur le crawl budget si je débloque des milliers d'URLs pour appliquer noindex ?

Impact significatif à court terme : Googlebot va crawler massivement ces pages pour lire les directives. Priorisez par batch et surveillez les logs serveur pour éviter une surcharge. Le crawl budget se normalise après désindexation complète.

🎥 De la même vidéo 9

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 1h00 · publiée le 16/03/2017

🎥 Voir la vidéo complète sur YouTube →