Robots.txt empêche-t-il vraiment l'indexation de vos pages ?

Declaration officielle

John Mueller explique que le fichier robots.txt et la balise noindex ont des fonctions différentes : le robots.txt empêche le crawl, mais pas l'indexation, tandis que la balise noindex permet d'empêcher l'indexation d'une page qui a été crawlée.

4:14

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 57:45 💬 EN 📅 05/10/2018 ✂ 9 déclarations

Voir sur YouTube (4:14) →

✂ Autres déclarations de cette vidéo 8 ▾

9:57 Le JavaScript bloque-t-il vraiment l'indexation de votre contenu ?
20:31 Faut-il retirer les balises noindex sur les pages hreflang pour que ça fonctionne ?
24:07 Les balises alt peuvent-elles bloquer l'indexation de vos images en mobile-first ?
27:13 Combien de temps avant qu'un code 503 détruise votre indexation ?
29:16 L'hébergement mutualisé nuit-il vraiment au référencement de votre site ?
33:09 Un rollback de site peut-il pénaliser votre référencement dans Google ?
41:08 Comment Google récrawle-t-il vraiment les pages soft 404 après correction ?
52:31 Comment Google choisit-il vraiment la version canonique quand vos signaux se contredisent ?

Ce qu'il faut comprendre

Quelle est la différence fondamentale entre robots.txt et noindex ?

Le fichier robots.txt agit comme un barrage au niveau du crawl. Quand Googlebot lit une directive Disallow dans ce fichier, il refuse d'accéder à l'URL concernée. Mais cette interdiction de crawl ne signifie pas que l'URL disparaît du radar de Google.

Si des backlinks externes pointent vers cette URL bloquée, Google peut décider de l'indexer quand même, en se basant uniquement sur les anchor texts et le contexte des liens entrants. L'URL apparaîtra dans les résultats avec la mention « Aucune information disponible sur cette page ».

Comment la balise noindex résout-elle ce problème ?

La balise meta robots noindex (ou l'en-tête HTTP X-Robots-Tag: noindex) fonctionne différemment. Pour que Google la lise, il doit d'abord crawler la page. Une fois crawlée, il détecte l'instruction noindex et retire la page de son index.

Le paradoxe est là : pour empêcher l'indexation, vous devez autoriser le crawl. Si vous bloquez une page par robots.txt ET que vous y ajoutez un noindex, Googlebot ne verra jamais le noindex. La page risque donc d'être indexée quand même si elle reçoit des liens.

Pourquoi cette confusion persiste-t-elle chez les SEO ?

Pendant des années, beaucoup de praticiens ont cru que robots.txt = désindexation. Cette erreur vient d'une simplification mentale : si Googlebot ne peut pas accéder à une page, elle ne peut pas être dans l'index. Faux.

Google indexe des milliards de pages qu'il n'a jamais crawlées, uniquement sur la base de signaux externes. Les liens entrants suffisent à créer une empreinte dans l'index. Le robots.txt ne fait que retarder ou compliquer la collecte d'informations, il n'efface pas cette empreinte.

Robots.txt bloque le crawl, pas l'indexation — une URL peut être indexée sans jamais être visitée
Noindex bloque l'indexation, mais nécessite que Googlebot puisse crawler la page pour lire la directive
Combiner les deux (robots.txt + noindex sur la même URL) est contre-productif et peut mener à une indexation non désirée
Pour désindexer proprement : autoriser le crawl, ajouter noindex, attendre la désindexation, puis optionnellement bloquer par robots.txt
Le X-Robots-Tag HTTP est une alternative au meta robots, utile pour les fichiers non-HTML (PDF, images)

Avis d'un expert SEO

Cette distinction est-elle respectée dans la pratique réelle du crawl ?

Oui, et c'est vérifiable dans la Search Console. Allez dans l'onglet Couverture, vous verrez régulièrement des URLs marquées « Indexée, non explorée ». Ces pages sont dans l'index sans que Googlebot les ait visitées. Elles y sont uniquement grâce à des signaux externes : backlinks, sitemaps XML, mentions dans d'autres pages crawlées.

Le problème surgit quand des URLs sensibles (staging, pages de test, contenus dupliqués) sont bloquées par robots.txt mais reçoivent des liens. Google les indexe avec un snippet vide. Résultat : vous pensez être protégé, mais vos URLs internes apparaissent publiquement.

Pourquoi Google maintient-il ce fonctionnement contre-intuitif ?

Parce que le robots.txt est un protocole d'exclusion volontaire, pas une sécurité. Il date de 1994, une époque où le web était fondamentalement différent. Google respecte ce standard tout en appliquant sa propre logique d'indexation, qui privilégie les signaux de pertinence.

Si une URL est citée massivement, Google considère qu'elle a de la valeur informationnelle, même s'il ne peut pas la crawler. C'est cohérent avec sa mission : organiser l'information mondiale, pas respecter aveuglément les souhaits des webmasters. [A verifier] : Google n'a jamais publié de seuil précis de backlinks nécessaires pour déclencher une indexation sans crawl.

Quelles erreurs terrain découlent de cette méconnaissance ?

La plus courante : bloquer par robots.txt des pages qu'on veut désindexer. J'ai vu des sites bloquer /tag/ ou /author/ par robots.txt tout en ayant du maillage interne vers ces URLs. Résultat : des centaines d'URLs indexées avec snippet vide, diluant le crawl budget et créant du bruit dans l'index.

Autre erreur : ajouter un noindex dans le HTML d'une page déjà bloquée par robots.txt, puis s'étonner que la désindexation ne se produise jamais. Googlebot ne peut pas lire le noindex qu'il n'a jamais crawlé. Il faut d'abord retirer le blocage robots.txt, laisser Google crawler et lire le noindex, attendre la désindexation (ça peut prendre des semaines), puis éventuellement remettre un blocage robots.txt si nécessaire.

Si vous avez bloqué des sections entières par robots.txt et constatez qu'elles apparaissent quand même dans site: recherches, vérifiez vos backlinks externes. Retirez le blocage robots.txt, ajoutez noindex, attendez la désindexation complète avant de rebloquer. Cette procédure prend du temps mais c'est la seule fiable.

Impact pratique et recommandations

Comment auditer votre configuration actuelle ?

Commencez par croiser Google Search Console et votre fichier robots.txt. Dans l'onglet Couverture, filtrez les URLs « Indexée, non explorée » ou « Détectée, actuellement non indexée ». Si vous voyez des URLs que vous pensiez protégées par robots.txt, c'est le signal d'alerte.

Utilisez ensuite un crawler comme Screaming Frog ou Oncrawl pour identifier les pages contenant noindex ET bloquées par robots.txt. Cette combinaison est un bug de configuration : le noindex ne sera jamais lu, la page reste indexable par signaux externes.

Quelle procédure suivre pour désindexer proprement ?

La séquence correcte est non-intuitive mais critique. D'abord, retirez toute directive Disallow concernant l'URL dans robots.txt. Ensuite, ajoutez une balise meta robots noindex (ou X-Robots-Tag: noindex en HTTP header) sur la page elle-même.

Attendez que Googlebot crawle la page, lise le noindex, et la retire de l'index. Cette étape peut prendre de quelques jours à plusieurs semaines selon la fréquence de crawl. Vérifiez dans Search Console, section Couverture, que l'URL passe en statut « Exclue par la balise noindex ». Seulement après cette désindexation confirmée, vous pouvez optionnellement rebloquer par robots.txt si vous voulez aussi empêcher le crawl.

Quelles sont les alternatives pour gérer l'indexation sans risque ?

Pour des contenus vraiment sensibles, ne comptez jamais sur robots.txt seul. Utilisez une authentification HTTP (401/403) ou des URL parameters avec noindex dynamique. Les pages en staging doivent être sur un sous-domaine séparé avec authentification obligatoire.

Pour les taxonomies WordPress (tags, auteurs, dates), préférez le noindex direct plutôt que le blocage robots.txt. Yoast SEO et Rank Math permettent de noindexer par type de page. Vérifiez régulièrement que ces réglages sont bien appliqués dans le code source, pas juste dans l'interface admin.

Auditer Search Console pour identifier les URLs « Indexée, non explorée » bloquées par robots.txt
Supprimer toute directive robots.txt sur les pages que vous voulez désindexer
Ajouter noindex (meta tag ou HTTP header) sur ces pages
Attendre la désindexation confirmée avant d'éventuellement rebloquer le crawl
Utiliser l'authentification HTTP pour les contenus vraiment privés (staging, admin)
Vérifier que vos plugins SEO appliquent bien le noindex dans le code source, pas seulement dans leurs réglages

La gestion correcte de l'indexation nécessite une compréhension fine des mécanismes de crawl et d'indexation de Google. Les erreurs de configuration peuvent persister pendant des mois avant d'être détectées, polluant votre index et gaspillant du crawl budget. Ces optimisations techniques demandent une vigilance constante et une expertise approfondie des outils de diagnostic. Si vous gérez un site de taille moyenne ou grande, faire appel à une agence SEO spécialisée peut vous aider à éviter ces pièges et à mettre en place des processus de monitoring robustes adaptés à votre architecture.

❓ Questions frequentes

Puis-je combiner robots.txt et noindex sur la même URL ?

Non, c'est contre-productif. Si vous bloquez une URL par robots.txt, Googlebot ne pourra jamais crawler la page pour lire la balise noindex. L'URL risque d'être indexée quand même si elle reçoit des backlinks externes.

Comment désindexer des pages actuellement bloquées par robots.txt ?

Retirez d'abord le blocage robots.txt pour permettre le crawl. Ajoutez ensuite une balise noindex sur ces pages. Attendez que Google les crawle et les retire de l'index (vérifiable dans Search Console). Vous pouvez ensuite rebloquer par robots.txt si nécessaire.

Pourquoi mes URLs bloquées par robots.txt apparaissent-elles dans Google ?

Parce que le robots.txt bloque le crawl mais pas l'indexation. Si vos URLs reçoivent des backlinks externes ou sont mentionnées dans votre sitemap, Google peut les indexer sans les crawler, affichant uniquement l'URL avec la mention « Aucune information disponible ».

Le X-Robots-Tag HTTP est-il plus efficace que la meta balise noindex ?

Ils sont équivalents en efficacité, mais le X-Robots-Tag HTTP est plus flexible : il fonctionne sur tous types de fichiers (PDF, images, vidéos) alors que la meta balise ne s'applique qu'aux pages HTML. Choisissez selon votre architecture.

Combien de temps prend la désindexation après ajout d'un noindex ?

Cela dépend de la fréquence de crawl de votre site. Pour des pages crawlées quotidiennement, comptez quelques jours. Pour des pages peu prioritaires, cela peut prendre plusieurs semaines. Surveillez l'évolution dans l'onglet Couverture de Search Console.

🎥 De la même vidéo 8

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 57 min · publiée le 05/10/2018

🎥 Voir la vidéo complète sur YouTube →