Pourquoi une page en noindex continue-t-elle d'apparaître dans l'index Google ?

Declaration officielle

If a page set to noindex is still indexed, verify that it's not being blocked by robots.txt, as this prevents Google from seeing the noindex tag. Remove the block temporarily to allow crawling.

50:14

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 1h01 💬 EN 📅 28/02/2018 ✂ 10 déclarations

Voir sur YouTube (50:14) →

✂ Autres déclarations de cette vidéo 9 ▾

16:24 Le contenu desktop-only disparaît-il vraiment avec le mobile-first indexing ?
26:01 Comment le rapport de couverture d'index de la Search Console peut-il révéler vos angles morts SEO ?
28:42 Pourquoi Google propose-t-il deux crawlers dans l'outil d'inspection d'URL ?
44:51 Le cloaking est-il toujours pénalisé, même pour protéger des contenus sensibles ?
47:53 Les variations régionales de mots-clés comptent-elles encore pour le référencement ?
52:53 Les soft 404 sont-elles vraiment un problème pour votre référencement ?
53:37 L'A/B testing peut-il vraiment pénaliser votre référencement naturel ?
53:58 Pourquoi vos sitemaps dynamiques ne sont-ils pas traités par Google ?
57:18 Comment Google évalue-t-il réellement la légalité et la valeur des avis affichés en rich snippets ?

Ce qu'il faut comprendre

Comment le robots.txt peut-il empêcher le noindex de fonctionner ?

Le mécanisme est contre-intuitif mais logique. Lorsqu'une URL est bloquée dans le robots.txt, Googlebot ne peut pas crawler la page pour lire son contenu HTML. La directive meta robots noindex se trouve dans le code source de la page, inaccessible si le crawl est interdit.

Google indexe alors l'URL par d'autres signaux : des backlinks externes, des mentions dans le sitemap XML, ou des liens internes détectés ailleurs sur le site. L'URL apparaît dans les résultats avec la mention typique "Aucune information disponible pour cette page" car Google connaît son existence sans avoir pu la crawler.

Le blocage robots.txt prime-t-il toujours sur le noindex ?

Oui, et c'est une règle de priorité stricte dans l'architecture de crawl. Le fichier robots.txt est consulté avant toute tentative de récupération de la page. Si l'accès est refusé, le processus s'arrête là.

La directive noindex, qu'elle soit en meta tag HTML ou en en-tête HTTP X-Robots-Tag, ne peut être lue que si le crawler accède effectivement au contenu. Cette hiérarchie technique explique pourquoi certaines pages persistent dans l'index malgré un noindex bien implémenté côté page.

Dans quels cas observe-t-on ce problème en pratique ?

Le scénario classique : un site bloque des paramètres URL ou des répertoires entiers via robots.txt pour économiser le crawl budget, puis ajoute un noindex sur ces mêmes pages pour nettoyer l'index. Les deux directives entrent en conflit.

Autre cas fréquent : la migration d'un site qui conserve d'anciens blocages robots.txt tandis que le nouveau template ajoute systématiquement des balises noindex sur certaines sections. Les pages restent visibles dans Google car le robots.txt hérité empêche la lecture des nouvelles directives.

Disallow robots.txt bloque le crawl avant lecture du HTML
Le noindex nécessite un crawl pour être détecté et appliqué
Google peut indexer une URL sans crawler si elle reçoit des signaux externes
La désindexation effective prend plusieurs semaines après suppression du blocage robots.txt
Les pages bloquées apparaissent avec un snippet vide caractéristique

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Absolument, et c'est l'un des pièges techniques les plus documentés en SEO. Les logs serveur confirment systématiquement que Googlebot ne tente même pas de crawler les URLs bloquées en robots.txt, rendant impossible la détection du noindex.

La recommandation de Google de "retirer temporairement le blocage" est néanmoins délicate à appliquer. Elle suppose qu'on peut se permettre un pic de crawl sur des centaines ou milliers d'URLs précédemment bloquées, ce qui peut saturer un serveur peu robuste. [A vérifier] : Google ne précise pas la durée nécessaire de ce déblocage ni le délai avant désindexation effective.

Quelles nuances faut-il apporter à cette directive ?

La déclaration reste silencieuse sur un point crucial : que faire des URLs qu'on veut bloquer ET désindexer rapidement ? La séquence recommandée (débloquer robots.txt, attendre le crawl noindex, rebloquer) prend plusieurs semaines minimum selon la fréquence de crawl du site.

Pour les sites avec un crawl budget limité, cette approche peut détourner des ressources de crawl des pages importantes. Google ne propose pas d'alternative pour accélérer le processus, comme un signal via Search Console qui forcerait un recrawl prioritaire des pages concernées.

Dans quels cas cette règle ne s'applique-t-elle pas complètement ?

Les en-têtes HTTP X-Robots-Tag noindex peuvent parfois être détectés lors d'une requête HEAD, sans téléchargement complet du HTML. Certains SEO rapportent des désindexations réussies même avec robots.txt actif, mais c'est incohérent et non documenté officiellement.

Les URLs jamais indexées (nouvelles pages) avec noindex ET blocage robots.txt ne rencontrent pas ce problème, puisque Google n'a aucun signal externe pour les découvrir. Le conflit ne concerne que les pages déjà présentes dans l'index qu'on tente de nettoyer.

Attention : retirer un blocage robots.txt même temporairement peut déclencher un crawl massif. Sur les gros sites, coordonne cette opération avec une surveillance serveur active et prévois une fenêtre de faible trafic utilisateur.

Impact pratique et recommandations

Que faut-il faire concrètement pour désindexer ces pages ?

Première étape : identifier les URLs indexées malgré le noindex via une requête site:exemple.com combinée à l'inspection d'URLs dans Search Console. Compare avec ton fichier robots.txt pour repérer les conflits entre directives Disallow et pages indexées.

Retire ensuite le blocage robots.txt pour les URLs ciblées uniquement, pas nécessairement tout le fichier. Utilise la granularité des directives Disallow pour limiter l'impact. Demande un recrawl via Search Console pour accélérer la détection du noindex, même si Google ne garantit pas de traitement immédiat.

Quelles erreurs éviter dans cette manipulation ?

Ne rebloquez jamais le robots.txt avant que Google ait crawlé et pris en compte le noindex. Vérifie dans Search Console que le statut passe bien à "Exclue par la balise noindex" avant de réactiver un éventuel blocage.

Évite de cumuler noindex et blocage robots.txt par principe, sauf si tu souhaites explicitement bloquer le crawl d'une ressource sans te soucier de son indexation. Pour désindexer proprement, le noindex suffit et permet à Google de crawler la directive. Le robots.txt sert à économiser du crawl budget, pas à contrôler l'indexation.

Comment vérifier que le problème est résolu ?

Utilise le rapport de couverture dans Search Console pour suivre l'évolution des pages marquées "Exclue par la balise noindex". Les URLs doivent disparaître de l'index dans les 2-4 semaines suivant le crawl du noindex, selon la fréquence de visite de Googlebot.

Lance régulièrement des requêtes site:exemple.com/chemin-problematique pour confirmer la désindexation effective. Les logs serveur doivent montrer des visites Googlebot sur les URLs précédemment bloquées, preuve que le crawl a repris et que la directive peut être lue.

Auditer le robots.txt pour identifier les Disallow conflictuels avec des pages indexées
Retirer temporairement les blocages robots.txt sur les URLs à désindexer
Vérifier que le noindex est bien présent en meta tag ou X-Robots-Tag HTTP
Demander un recrawl via l'outil Inspection d'URL de Search Console
Surveiller les logs serveur pour confirmer le passage de Googlebot
Attendre 2-4 semaines et contrôler la désindexation effective via requête site:

La gestion fine de l'indexation via noindex et robots.txt demande une compréhension technique pointue des mécanismes de crawl et une surveillance continue des résultats. Ces manipulations, apparemment simples, peuvent générer des effets de bord sur le crawl budget ou laisser des pages indésirables visibles pendant des semaines. Pour les sites complexes ou critiques, s'appuyer sur une agence SEO spécialisée garantit une mise en œuvre maîtrisée, avec audit préalable, planification des interventions et monitoring post-déploiement pour sécuriser chaque étape du processus.

❓ Questions frequentes

Peut-on utiliser robots.txt et noindex simultanément sur la même URL ?

Techniquement oui, mais c'est inefficace : le blocage robots.txt empêche Googlebot de lire le noindex. L'URL peut rester indexée si Google la découvre par des liens externes.

Combien de temps faut-il laisser le robots.txt débloqué pour que Google détecte le noindex ?

Cela dépend de la fréquence de crawl du site. En général, 2-4 semaines suffisent pour que Googlebot revisite les URLs et détecte la directive. Les sites à fort crawl peuvent voir des résultats en quelques jours.

Le X-Robots-Tag HTTP noindex fonctionne-t-il mieux avec un robots.txt actif ?

Non, le X-Robots-Tag nécessite aussi une réponse HTTP complète, donc un crawl de la ressource. Le blocage robots.txt empêche toute requête, rendant l'en-tête inaccessible comme la meta tag HTML.

Faut-il supprimer définitivement le blocage robots.txt après désindexation ?

Pas nécessairement. Une fois le noindex détecté et la page désindexée, vous pouvez rebloquer le robots.txt si vous souhaitez économiser du crawl budget. La désindexation persistera car Google a mémorisé la directive.

Comment éviter ce problème lors d'un nettoyage d'index massif ?

Privilégiez le noindex seul sans blocage robots.txt pour désindexer. Une fois les pages sorties de l'index, ajoutez éventuellement un Disallow si vous voulez bloquer le crawl futur. Ne cumulez jamais les deux dès le départ.

🎥 De la même vidéo 9

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 1h01 · publiée le 28/02/2018

🎥 Voir la vidéo complète sur YouTube →