Googlebot ignore-t-il vraiment l'accept-language header de votre site multilingue ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Googlebot ne crawle presque jamais avec un header accept-language défini, ou utilise parfois 'en' (anglais). Si un site sert du contenu différent selon l'accept-language header de l'utilisateur, Google ne verra que la version anglaise (ou la version par défaut sans langue). Il est préférable d'afficher une bannière proposant de changer de langue plutôt que de permuter automatiquement le contenu.

54:21

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 59:11 💬 EN 📅 11/08/2020 ✂ 42 déclarations

Voir sur YouTube (54:21) →

✂ Autres déclarations de cette vidéo 41 ▾

📅

Declaration officielle du 11 aout 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Faut-il configurer le header Content-Language pour les PDF et fichiers non-HTML ... John Mueller · 25 avril 2024 Voir la declaration →

TL;DR

Googlebot crawle presque toujours sans header accept-language défini, ou utilise occasionnellement 'en' par défaut. Si votre site bascule automatiquement le contenu selon ce header, Google ne verra que la version anglaise ou la version par défaut — jamais vos autres variantes linguistiques. La recommandation officielle : bannière de sélection manuelle plutôt que redirection automatique.

Ce qu'il faut comprendre

Pourquoi Googlebot crawle-t-il sans header accept-language ?

Googlebot ne se comporte pas comme un navigateur standard. Contrairement à un utilisateur dont le navigateur envoie systématiquement un header accept-language reflétant ses préférences linguistiques, le bot de Google crawle la plupart du temps sans cet en-tête HTTP.

Quand ce header est envoyé, il utilise 'en' (anglais) par défaut. Cette approche délibérée vise à garantir que Googlebot accède à une version stable et prévisible de vos pages, sans biais linguistique introduit par le serveur.

Quel est le risque pour un site qui détecte la langue via accept-language ?

Si votre serveur détecte le header accept-language et sert automatiquement du contenu différent selon la langue, vous créez un problème d'indexation majeur. Google ne verra que la version servie par défaut (souvent l'anglais, parfois la langue par défaut de votre configuration serveur).

Les autres versions linguistiques restent invisibles au crawl. Votre site français, espagnol ou japonais peut exister techniquement, mais Googlebot n'y accédera jamais si l'accès dépend d'un header qu'il n'envoie pas. C'est un angle mort complet dans l'indexation.

Comment Google distingue-t-il réellement les versions linguistiques ?

Google s'appuie sur des signaux explicites : URLs distinctes par langue (sous-domaines, sous-répertoires, paramètres d'URL), balises hreflang déclarées dans le HTML ou le sitemap, et contenu visible sur la page.

Le header accept-language n'entre jamais dans l'équation. C'est une donnée volatile, côté client, que Google ignore volontairement pour privilégier des signaux structurels contrôlables par le webmaster.

Googlebot ne lit pas accept-language dans 99% des cas — il crawle « neutre »
Basculer le contenu via ce header rend vos versions linguistiques invisibles à l'indexation
URLs distinctes + hreflang sont les seuls signaux fiables pour le multilinguisme
Une bannière de sélection manuelle garantit que toutes les versions restent accessibles au crawl
Le contenu servi à Googlebot doit être identique à celui servi à un utilisateur sans préférences linguistiques

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les pratiques observées sur le terrain ?

Oui, et c'est justement un rappel brutal pour ceux qui persistent à croire que Google « comprend tout ». Sur des audits de sites multilingues, on observe régulièrement des cas où seule la version anglaise (ou la version par défaut serveur) apparaît dans l'index. Le reste ? Jamais crawlé, jamais indexé.

La confusion vient souvent d'une méconnaissance du fonctionnement HTTP. Beaucoup de frameworks (notamment ceux orientés « user experience ») détectent automatiquement accept-language et redirigent l'utilisateur. Pratique pour l'UX, catastrophique pour le SEO si aucune structure d'URLs distinctes n'existe en parallèle.

Quelles nuances faut-il apporter à cette consigne officielle ?

Mueller parle de « presque jamais ». Ce « presque » laisse une marge d'incertitude — Googlebot peut envoyer 'en' dans certains contextes. Concrètement ? Si votre site bascule du français vers l'anglais dès qu'il détecte 'en', vous perdez la version française même dans ce scénario minoritaire.

Autre nuance : cette règle s'applique au crawl initial et à l'indexation. Pour le rendu JavaScript ou certains tests spécifiques (Search Console, Mobile-Friendly Test), Google peut simuler des contextes différents, mais ce n'est pas le comportement standard de Googlebot dans son pipeline d'indexation classique. [À vérifier] : aucune donnée officielle sur la fréquence exacte de l'envoi du header 'en'.

Dans quels cas cette règle pourrait-elle poser problème malgré tout ?

Si vous utilisez un CDN ou un reverse proxy qui détecte accept-language en amont de votre serveur et sert des versions en cache différenciées, vous êtes exposé. Même si vous avez des URLs distinctes, si le CDN surcharge la détection linguistique, Googlebot peut se retrouver bloqué sur une seule variante.

Cas classique : Cloudflare Workers ou Lambda@Edge avec des règles de routing linguistique mal configurées. Le bot arrive sur /fr/, mais le worker détecte l'absence de header accept-language (ou la valeur 'en') et sert la version anglaise sur l'URL française. Résultat : duplicate content, indexation chaotique, perte de pertinence locale.

Attention : Les systèmes de gestion de contenu headless (Contentful, Strapi, etc.) couplés à des frameworks JavaScript (Next.js, Nuxt) activent souvent par défaut la détection linguistique via accept-language. Vérifiez impérativement que le rendu serveur (SSR) ou la génération statique (SSG) ne dépend pas de ce header pour servir le contenu final.

Impact pratique et recommandations

Que faut-il faire concrètement pour un site multilingue ?

Première étape : URLs distinctes par langue. Sous-domaines (fr.example.com), sous-répertoires (example.com/fr/), ou paramètres d'URL (example.com?lang=fr) — peu importe la structure, pourvu qu'elle soit stable et crawlable sans header HTTP particulier.

Deuxième étape : implémenter les balises hreflang correctement. Chaque page doit déclarer ses variantes linguistiques et régionales, en auto-référence incluse. Googlebot s'appuie sur ces balises pour comprendre les relations entre versions, indépendamment de tout header HTTP.

Quelles erreurs éviter absolument ?

Ne jamais servir du contenu différent sur la même URL selon accept-language. C'est le piège classique des frameworks « intelligent » qui détectent la langue du visiteur. Pour Googlebot, l'URL example.com/product doit toujours renvoyer exactement le même contenu, peu importe le header.

Évitez aussi les redirections 302 basées sur accept-language. Googlebot suivra la redirection, mais indexera la cible (souvent la version anglaise), laissant vos autres versions linguistiques orphelines. Si vous devez rediriger les utilisateurs, faites-le en JavaScript côté client, après le chargement initial du HTML — ainsi Googlebot voit toujours la version canonique.

Comment vérifier que mon site est conforme à cette logique ?

Testez vos URLs avec curl en supprimant explicitement le header accept-language : curl -H "Accept-Language:" https://example.com/fr/. Le contenu renvoyé doit être identique à celui visible dans un navigateur configuré en français.

Utilisez aussi Google Search Console, section Couverture, pour vérifier que toutes vos versions linguistiques apparaissent comme indexées. Si seule la version anglaise remonte, vous avez probablement un problème de détection serveur basée sur accept-language. Inspectez l'URL via l'outil de test d'URL — le HTML retourné doit correspondre à la langue attendue, sans dépendre d'un header que Googlebot n'envoie pas.

Structurer le site avec des URLs distinctes par langue (sous-domaine, sous-répertoire ou paramètre)
Implémenter les balises hreflang sur toutes les pages, avec auto-référence
Ne jamais servir de contenu différent sur la même URL selon accept-language
Proposer une bannière de sélection manuelle de la langue plutôt qu'une redirection automatique
Tester le rendu serveur avec curl sans header accept-language pour valider la stabilité du contenu
Vérifier dans Search Console que toutes les versions linguistiques sont crawlées et indexées

La gestion d'un site multilingue conforme aux attentes de Google repose sur une architecture d'URLs explicite et des signaux techniques clairs (hreflang). Ignorer le header accept-language dans votre logique de diffusion de contenu est la seule garantie que Googlebot accédera à toutes vos variantes. Ces configurations, notamment sur des infrastructures complexes (CDN, SSR, headless CMS), peuvent rapidement devenir techniques. Si vous manquez de ressources internes ou souhaitez sécuriser une migration multilingue sans risque d'indexation partielle, faire appel à une agence SEO spécialisée vous évitera des erreurs coûteuses et accélérera la mise en conformité.

❓ Questions frequentes

Googlebot envoie-t-il parfois un header accept-language avec une autre valeur que 'en' ?

Non, selon Mueller, Googlebot n'envoie presque jamais ce header, et quand il le fait, c'est toujours avec la valeur 'en' (anglais). Aucune autre langue n'est utilisée dans ce contexte.

Mon site redirige automatiquement selon accept-language, est-ce que Google verra quand même toutes mes langues ?

Non. Si la redirection dépend du header accept-language, Googlebot verra uniquement la version par défaut ou anglaise. Les autres versions linguistiques resteront invisibles au crawl.

Peut-on détecter la langue de l'utilisateur en JavaScript côté client sans impacter l'indexation ?

Oui, tant que le HTML initial renvoyé au serveur reste stable et ne dépend pas du header accept-language. La redirection ou l'affichage d'une bannière peut se faire après le chargement, côté client.

Les balises hreflang suffisent-elles à compenser une détection serveur basée sur accept-language ?

Non. Hreflang indique les relations entre versions, mais si Googlebot ne peut pas crawler une version parce que le serveur la masque, hreflang ne sert à rien. Les URLs doivent être accessibles indépendamment du header.

Est-ce que cette règle s'applique aussi aux sites monopages (SPA) avec routing JavaScript ?

Oui, si le serveur renvoie un HTML initial différent selon accept-language. Sur un SPA, assurez-vous que le HTML de base (shell) est identique pour tous les visiteurs, quelle que soit leur langue, et que le contenu linguistique se charge ensuite via JavaScript ou SSR stable.

🏷 Sujets associes

crawl multilingue hreflang indexation accept-language Googlebot architecture SEO international

Anciennete & Historique Contenu Crawl & Indexation IA & SEO Recherche locale SEO International

🎥 De la même vidéo 41

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 59 min · publiée le 11/08/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Incohérence entre langue déclarée en hreflang et c...

Erreurs 405 et soft 404 : traitement équivalent à ...

« Retour aux resultats