Declaration officielle
Autres déclarations de cette vidéo 24 ▾
- 2:06 Le rel=canonical suffit-il vraiment pour gérer les tests A/B en SEO ?
- 2:06 Faut-il vraiment utiliser rel=canonical sur vos pages de test A/B ?
- 3:07 Panda intégré à l'algo principal : qu'est-ce que ça change vraiment pour votre SEO ?
- 5:07 Panda est-il vraiment intégré au classement de base de Google ?
- 5:51 Pourquoi Google découvre-t-il soudainement des milliers de nouvelles URLs sur votre site ?
- 6:14 Pourquoi une multiplication soudaine d'URL peut-elle déclencher un avertissement dans Google Search Console ?
- 6:49 Les mises à jour de Google se déploient-elles vraiment en temps réel ?
- 9:26 Faut-il vraiment forcer tous ses liens internes en dofollow pour ranker ?
- 12:07 Les liens dofollow automatisés vers vos propres contenus sont-ils finalement autorisés par Google ?
- 12:29 Peut-on vraiment fusionner plusieurs sites en un seul grâce à rel="canonical" ?
- 13:29 Les mises à jour Google sont-elles vraiment en temps réel ou s'agit-il d'un mythe SEO ?
- 13:51 Faut-il utiliser le rel=canonical entre sous-domaine et domaine principal pour gérer le duplicate content ?
- 15:38 Les interstitiels mobiles sont-ils vraiment pénalisés par Google ?
- 16:55 Faut-il vraiment valider ses pages AMP pour qu'elles soient prises en compte par Google ?
- 19:06 L'historique de recherche fausse-t-il vraiment vos tests de positionnement SEO ?
- 21:37 Les algorithmes Google fonctionnent-ils vraiment de la même manière dans toutes les langues ?
- 22:00 Suffit-il vraiment d'ajouter la date dans le contenu WordPress pour que Google reconnaisse une mise à jour ?
- 22:56 L'hébergement mutualisé peut-il vraiment pénaliser votre référencement ?
- 25:58 Les interstitiels mobile nuisent-ils vraiment au référencement Google ?
- 31:46 L'historique de recherche fausse-t-il vraiment vos analyses SEO ?
- 32:22 Pourquoi Google ne vous prévient-il presque jamais quand un algorithme vous pénalise ?
- 36:59 L'hébergement mutualisé nuit-il réellement au référencement de votre site ?
- 40:25 Le contenu dupliqué entraîne-t-il vraiment une pénalité Google ?
- 48:29 Panda intégré au core : cela signifie-t-il vraiment du temps réel ?
Google recommande de noindex les pages dont l'accès est conditionné par le referer HTTP. Pour du contenu réellement confidentiel, cette méthode reste insuffisante : l'authentification côté serveur est indispensable. Le referer constitue un filtre facilement contournable, inadapté à la protection de données sensibles mais utilisable pour des restrictions d'affichage légères.
Ce qu'il faut comprendre
Le referer HTTP constitue-t-il un mécanisme de sécurité fiable ?
Le referer HTTP correspond à l'URL de provenance d'un visiteur. Certains sites bloquent l'accès à des pages si le referer ne correspond pas à un domaine attendu. Cette méthode vise à empêcher l'accès direct ou depuis des sites tiers non autorisés.
Soyons clairs : ce n'est pas une sécurité. Le referer peut être falsifié en quelques secondes via une extension navigateur, un proxy ou un simple curl. N'importe quel crawler configuré peut l'ignorer ou le modifier. Google lui-même peut envoyer des requêtes avec ou sans referer selon ses besoins.
Pourquoi Google suggère-t-il de noindex ces pages ?
Si Googlebot rencontre une page bloquée selon le referer, il ne peut pas accéder au contenu. L'indexation devient aléatoire : parfois le bot arrive avec un referer valide (navigation interne), parfois non (découverte via lien externe). Résultat : pages orphelines, contenu inaccessible, signaux contradictoires.
La directive noindex évite cette instabilité. Elle indique clairement à Google de ne pas indexer la page, même s'il parvient occasionnellement à y accéder. C'est une position propre : soit la page est indexable et accessible, soit elle ne l'est pas.
Quelle différence avec une authentification côté serveur ?
L'authentification serveur (session, token JWT, OAuth) vérifie l'identité réelle de l'utilisateur avant de servir le contenu. Elle bloque Googlebot systématiquement avec un code HTTP 401 ou 403. Aucune ambiguïté : le contenu reste hors index.
C'est la seule méthode viable pour du contenu confidentiel (espace client, documents privés, données sensibles). Le referer ne protège rien ; il filtre juste l'affichage côté client, ce qui est insuffisant dès qu'il y a un enjeu de confidentialité.
- Referer HTTP = filtrage léger, facilement contournable, inadapté aux données sensibles
- Noindex = instruction claire à Google pour éviter l'indexation de pages bloquées par referer
- Authentification serveur = seule protection réelle pour contenu confidentiel, bloque Googlebot proprement
- Googlebot peut arriver avec ou sans referer selon le contexte de découverte de l'URL
- Mélanger blocage referer et indexation classique crée des signaux contradictoires
Avis d'un expert SEO
Cette recommandation reflète-t-elle vraiment les pratiques terrain observées ?
Oui, et c'est assez rare pour être souligné. On constate régulièrement des sites qui bloquent des pages selon le referer tout en les laissant indexables. Résultat : pages qui apparaissent puis disparaissent de l'index, taux de crawl qui s'emballe sur des URLs inaccessibles, canaux d'acquisition faussés dans Analytics.
La recommandation de Google est cohérente avec ce qu'on observe : soit tu assumes l'indexation et tu rends la page accessible, soit tu noindex proprement. Les situations entre-deux créent du bruit dans les logs, du gaspillage de crawl budget, et des erreurs soft 404 à répétition.
Dans quels cas un blocage par referer reste-t-il pertinent malgré tout ?
Le referer garde un usage pour filtrer l'affichage sans bloquer l'accès. Par exemple : afficher une lightbox ou un interstitiel selon la provenance, adapter l'UI pour un trafic direct vs référent, ou limiter l'embedding via iframe. C'est du contrôle UX, pas de la sécurité.
Mais dès qu'il s'agit d'empêcher réellement l'accès (contenu payant, espace membre, documents confidentiels), le referer ne tient pas. Un stagiaire avec Firefox Developer Edition contourne ça en 30 secondes. Pour ces cas, l'authentification serveur est la seule option viable.
Le noindex suffit-il à protéger du contenu sensible ?
Non, et c'est là que la nuance compte. Noindex empêche l'indexation, pas l'accès. Si l'URL est découverte (lien externe, partage, scan agressif), n'importe qui peut y accéder directement si le seul filtre est le referer. Le contenu reste exposé.
Pour du contenu vraiment confidentiel, l'authentification serveur est non négociable. Le noindex ne fait que clarifier la posture SEO d'une page déjà bloquée côté client. Si la page contient des données sensibles, elle doit renvoyer un 401/403 avant même de servir le HTML [A vérifier : impact sur la découvrabilité des pages légitimes liées].
Impact pratique et recommandations
Que faut-il auditer sur un site existant ?
Commence par identifier toutes les pages soumises à un blocage referer. Cherche dans le code serveur (Apache .htaccess, Nginx conf, middleware applicatif) les règles qui testent HTTP_REFERER. Croise avec les URLs indexées dans Google Search Console pour détecter les incohérences.
Ensuite, classe ces pages selon leur nature : contenu public mais à affichage conditionné (lightbox, interstitiel), contenu semi-privé (accès limité mais pas confidentiel), contenu sensible (espace client, données perso). La stratégie diffère radicalement selon le cas.
Comment corriger une page bloquée par referer actuellement indexée ?
Si la page doit rester accessible et indexable, retire le blocage referer. Soit elle est publique et tu assumes l'accès direct, soit elle ne l'est pas et tu passes en authentification serveur. Pas de demi-mesure.
Si elle ne doit pas être indexée, ajoute la directive noindex en meta robots et laisse le blocage referer en place uniquement si c'est pour de l'UX, pas pour de la sécurité. Vérifie ensuite dans GSC que Google désindexe progressivement ces URLs. Le crawl continuera, mais l'index se nettoiera.
Quelles erreurs critiques faut-il éviter absolument ?
Ne jamais bloquer Googlebot par referer tout en espérant une indexation normale. Ça crée un index zombie : pages découvertes via sitemap ou liens internes, mais inaccessibles au crawl. Google finit par les marquer en erreur ou les désindexer sans prévenir.
Deuxième piège : utiliser le referer comme unique protection de contenu payant ou confidentiel. C'est une passoire. N'importe quel outil de scraping contourne ça par défaut. Si le contenu a de la valeur ou doit rester privé, l'authentification serveur n'est pas optionnelle.
- Auditer les règles serveur filtrant HTTP_REFERER et croiser avec l'index Google
- Classifier les pages bloquées : UX léger, semi-privé, ou réellement confidentiel
- Ajouter noindex sur toute page bloquée par referer destinée à rester hors index
- Migrer vers authentification serveur (401/403) pour tout contenu sensible ou payant
- Vérifier dans GSC la désindexation progressive après ajout de noindex
- Ne jamais mélanger blocage referer et indexation standard pour du contenu public
❓ Questions frequentes
Googlebot envoie-t-il systématiquement un referer lors du crawl ?
Le noindex empêche-t-il l'accès au contenu d'une page ?
Puis-je bloquer Googlebot par referer tout en indexant la page via sitemap ?
Quelle différence entre 401, 403 et blocage referer côté SEO ?
Le blocage referer impacte-t-il le crawl budget ?
🎥 De la même vidéo 24
Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 47 min · publiée le 12/01/2016
🎥 Voir la vidéo complète sur YouTube →
💬 Commentaires (0)
Soyez le premier à commenter.