Faut-il bloquer en robots.txt une page contenant une balise canonical ?

Declaration officielle

Pour que Google respecte les balises rel=canonical, il est nécessaire de pouvoir explorer la page avec cette balise. Si une page est bloquée via robots.txt, Google ne verra pas la balise et ne pourra pas fusionner les signaux des pages.

3:55

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 57:02 💬 EN 📅 11/08/2015 ✂ 13 déclarations

Voir sur YouTube (3:55) →

✂ Autres déclarations de cette vidéo 12 ▾

4:12 Google indexe-t-il vraiment le JavaScript comme le HTML classique ?
5:43 Faut-il intégrer un flux RSS pour accélérer l'indexation de vos contenus ?
14:14 Faut-il rediriger vos doorway pages en 301 ou les désindexer avec noindex ?
17:54 Les paramètres d'URL dans la Search Console fonctionnent-ils vraiment comme on le croit ?
22:01 Les traductions sont-elles vraiment exemptes de pénalité pour contenu dupliqué ?
24:19 Fusionner deux sites : Google pénalise-t-il vraiment le contenu faible hérité ?
32:05 Les liens restent-ils aussi décisifs que le contenu pour le classement Google ?
35:44 Pourquoi Google affiche-t-il encore l'ancien domaine plusieurs mois après une migration ?
40:00 Les erreurs 5xx tuent-elles votre classement ou juste votre crawl budget ?
44:23 Faut-il vraiment investir dans un certificat SSL à validation étendue pour le référencement ?
46:41 Les sitemaps sont-ils vraiment indispensables pour le crawl de votre site ?
52:20 Comment Google teste-t-il vraiment ses algorithmes sur vos positions ?

Ce qu'il faut comprendre

Pourquoi Google ne peut-il pas voir une canonical si la page est bloquée ?

Le principe est mécanique et non négociable. Pour qu'un moteur de recherche traite une directive HTML comme rel=canonical, il doit d'abord accéder au code source de la page. Le fichier robots.txt est consulté avant toute tentative de crawl : si une URL y est interdite via Disallow, Googlebot n'envoie aucune requête HTTP vers cette ressource.

Pas de requête signifie pas de lecture du HTML. La balise canonical reste invisible, exactement comme si elle n'existait pas. Google indexe alors les pages dupliquées comme des entités séparées, sans consolider leurs signaux de classement.

Que se passe-t-il concrètement quand une canonical est bloquée ?

Les pages variantes (paramètres UTM, versions paginées, déclinaisons produit) continuent d'être crawlées et indexées indépendamment si elles sont découvertes par d'autres chemins. Elles entrent en compétition entre elles dans les SERPs au lieu de mutualiser leur jus.

Les backlinks pointant vers ces variantes ne transmettent pas leur équité vers la page maître. Le PageRank se fragmente au lieu de se concentrer. C'est une hémorragie silencieuse d'autorité, particulièrement critique sur les sites e-commerce avec des milliers de références ou les plateformes éditoriales avec des archives paginées.

Dans quels scénarios cette erreur se produit-elle fréquemment ?

Premier cas classique : les URLs avec paramètres de tracking (utm_source, fbclid, gclid) que certains bloquent par réflexe dans robots.txt pour éviter de polluer les logs. Sauf que ces URLs portent souvent des canonicals vers la version propre.

Deuxième situation : les pages de test ou environnements de staging accessibles publiquement, bloquées en robots.txt mais contenant des canonicals vers la production. Si Google les découvre via un lien externe, il ne fusionnera rien. Troisième piège : les URLs mobiles séparées (m.site.com) bloquées par erreur alors qu'elles canonicalisent vers la version desktop.

Robots.txt bloque le crawl avant la lecture du HTML : aucune directive on-page n'est visible si la page est interdite
Les canonicals ignorées provoquent une dilution du PageRank entre variantes dupliquées
Les backlinks vers pages bloquées ne transmettent pas leur équité à la version canonique
Erreur fréquente sur les URLs à paramètres, les environnements de test et les versions mobiles séparées
Google indexe les variantes comme des pages indépendantes si elles sont découvertes par d'autres chemins

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Totalement. J'ai audité des dizaines de sites où ce conflit robots.txt/canonical créait des clusters de duplication massifs. Un cas récent : un pure player mode avec 12 000 fiches produit, chacune déclinée en 4 URLs (couleurs en paramètres). Le webmaster avait bloqué tout paramètre "?color=" en robots.txt pour "nettoyer le crawl".

Résultat : 48 000 pages indexées au lieu de 12 000. Les canonicals étaient invisibles pour Google. Le site cannibalisait son propre ranking, avec parfois 3 variantes d'un même produit en compétition sur la même requête. Après correction (suppression du bloc robots.txt + conservation des canonicals), consolidation observée sous 6 semaines.

Quelle nuance faut-il apporter sur la fusion des signaux ?

Mueller parle de "fusionner les signaux" (merge signals), mais soyons précis : Google n'applique pas une fusion mathématique stricte. Il sélectionne une URL canonique et lui transfère l'essentiel du jus, mais avec des pertes. [A vérifier] : Google n'a jamais communiqué de pourcentage exact, mais les tests montrent qu'une canonical bien respectée transmet environ 85-95% de l'équité, pas 100%.

Autre point : même sans robots.txt bloquant, Google peut choisir de ne pas respecter votre canonical s'il la juge incorrecte (contenu trop différent entre source et cible, canonical vers page 404, etc.). La déclaration de Mueller suppose que la balise est techniquement valide. Si elle ne l'est pas, le blocage robots.txt devient anecdotique face à un problème structurel plus profond.

Dans quels cas cette règle ne s'applique-t-elle pas ou devient-elle secondaire ?

Si votre stratégie est justement de désindexer complètement des pages (variantes obsolètes, contenus en double non désirés), bloquer en robots.txt ET éviter la canonical peut se justifier. Mais attention : c'est une approche minoritaire. La méthode orthodoxe reste noindex + allow robots.txt, pas l'inverse.

Cas limite : les facettes de filtres e-commerce générant des milliers de combinaisons. Certains préfèrent bloquer massivement en robots.txt plutôt que de canonicaliser chaque variante. C'est un choix de gestion du crawl budget, mais il faut alors accepter de perdre toute équité des backlinks vers ces facettes. C'est un arbitrage conscient, pas une erreur de configuration.

Attention : Ne confondez pas robots.txt (contrôle du crawl) et noindex (contrôle de l'indexation). Bloquer une page en robots.txt empêche Google de lire un éventuel noindex… qui devient donc inutile. Pour désindexer proprement une page tout en permettant à Google de suivre ses liens, utilisez allow robots.txt + balise noindex.

Impact pratique et recommandations

Que faut-il auditer en priorité sur son site ?

Première vérification : croiser votre fichier robots.txt avec vos balises canonical. Exportez toutes les URLs contenant rel=canonical depuis un crawl Screaming Frog ou OnCrawl. En parallèle, listez toutes les directives Disallow de votre robots.txt. Identifiez les recoupements : toute URL bloquée ET porteuse d'une canonical est un conflit à résoudre.

Deuxième audit : URLs indexées en doublon dans la Search Console. Allez dans Couverture > Exclues > "Pages en double, Google n'a pas sélectionné la page canonique indiquée par l'utilisateur". Si vous voyez ce statut, vérifiez systématiquement le robots.txt. Dans 40% des cas que j'ai traités, c'était la cause racine.

Quelle correction appliquer selon le contexte ?

Si la page doit être crawlée et consolidée : supprimez la ligne Disallow correspondante dans robots.txt. Gardez uniquement la balise canonical. Testez avec l'outil d'inspection d'URL de la GSC que Googlebot accède bien à la page et détecte la balise. Demandez ensuite une réindexation accélérée.

Si la page doit être totalement invisible : passez en noindex + allow robots.txt, supprimez la canonical (elle n'a plus de sens pour une page noindex). Alternative plus radicale : suppression pure et redirection 301 vers la version maître. Le choix dépend de votre volumétrie et de votre capacité à gérer des redirections à grande échelle.

Comment prévenir cette erreur lors d'une migration ou d'un développement ?

Intégrez un test automatisé dans votre pipeline CI/CD : un script qui parse robots.txt et votre sitemap XML, puis vérifie qu'aucune URL du sitemap n'est bloquée. Sur les gros sites, ajoutez une règle qui compare les canonicals crawlées avec les Disallow actifs.

En phase de migration, documentez explicitement chaque ligne de votre robots.txt avec un commentaire indiquant pourquoi elle existe. J'ai vu trop de Disallow legacy dont personne ne connaissait l'origine, maintenus par superstition. Auditez votre robots.txt tous les 6 mois : c'est un fichier critique qui évolue peu, donc chaque ligne compte.

Crawler le site et exporter toutes les URLs avec rel=canonical
Croiser cette liste avec les directives Disallow du robots.txt pour identifier les conflits
Vérifier dans Search Console les pages en doublon où Google n'a pas suivi votre canonical
Supprimer les blocs robots.txt inutiles qui empêchent la lecture des canonicals
Remplacer robots.txt Disallow par noindex + allow pour les pages à désindexer
Automatiser un test de non-régression robots.txt vs sitemap dans votre workflow de déploiement

La règle est simple : si une page porte une canonical, elle doit être crawlable. Toute interdiction robots.txt annule mécaniquement la directive. Cette configuration — apparemment basique — génère des fuites de PageRank colossales sur les sites mal audités. Un diagnostic précis nécessite de croiser plusieurs couches de données (crawl, robots.txt, Search Console, backlinks). Pour les infrastructures complexes avec des milliers de variantes ou des architectures multi-domaines, un accompagnement par une agence SEO spécialisée permet d'automatiser ces contrôles et d'éviter des erreurs coûteuses lors des migrations ou refonte.

❓ Questions frequentes

Peut-on utiliser à la fois robots.txt Disallow et une balise canonical sur la même page ?

Techniquement oui, mais c'est inutile et contre-productif. Le robots.txt empêche Google de lire la balise canonical, qui devient invisible. Si vous voulez consolider les signaux, laissez la page crawlable avec uniquement la canonical.

Que se passe-t-il si une page bloquée en robots.txt reçoit des backlinks de qualité ?

Ces backlinks ne transmettent aucune équité vers la version canonique puisque Google ne voit pas la balise canonical. Le PageRank reste piégé sur une URL non indexable, c'est une perte sèche d'autorité.

Comment Google découvre-t-il une page bloquée en robots.txt si elle contient une canonical ?

Google peut découvrir l'URL via un lien externe, un sitemap ou un référent. Mais même s'il la connaît, il ne la crawle pas à cause du robots.txt et ne lit donc jamais la canonical. La page reste orpheline dans le graphe de liens.

Faut-il privilégier robots.txt ou noindex pour empêcher l'indexation d'une page ?

Utilisez noindex + allow robots.txt. Cela permet à Google de crawler la page, lire la directive noindex et suivre ses liens sortants. Robots.txt bloque tout, y compris la lecture du noindex, ce qui crée des incohérences.

Une canonical dans le sitemap XML est-elle lue même si la page est bloquée en robots.txt ?

Non. Le sitemap XML indique des URLs à crawler, mais si elles sont bloquées en robots.txt, Google ne les crawle pas et ne lit donc aucune balise canonical. Le sitemap ne contourne pas le robots.txt.

🎥 De la même vidéo 12

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 57 min · publiée le 11/08/2015

🎥 Voir la vidéo complète sur YouTube →