What does Google say about SEO? /
Quick SEO Quiz

Test your SEO knowledge in 3 questions

Less than 30 seconds. Find out how much you really know about Google search.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Official statement

If Google selects a canonical page in a different language (e.g., Portuguese chosen instead of Japanese), when the pages are indeed in distinct languages, the issue likely stems from poor server configuration (accept-language based content negotiation) or errors in rel-canonical tags. Google typically does not confuse translated content, as they are inherently regarded as distinct.
54:21
🎥 Source video

Extracted from a Google Search Central video

⏱ 59:11 💬 EN 📅 11/08/2020 ✂ 42 statements
Watch on YouTube (54:21) →
Other statements from this video 41
  1. 3:48 Google ignore-t-il vraiment les paramètres d'URL non pertinents automatiquement ?
  2. 3:48 Pourquoi Google ignore-t-il certains paramètres URL et comment choisit-il sa version canonique ?
  3. 4:34 Google ignore-t-il vraiment les paramètres d'URL non essentiels de votre site ?
  4. 8:48 Les erreurs 405 et soft 404 sont-elles vraiment traitées à l'identique par Google ?
  5. 8:48 Les soft 404 déclenchent-ils vraiment une désindexation sans pénalité ?
  6. 10:08 Faut-il vraiment préférer un soft 404 à une erreur 405 pour du contenu Flash retiré ?
  7. 17:06 Multiplier les demandes de réexamen Google accélère-t-il vraiment le traitement de votre site ?
  8. 18:07 Les actions manuelles pour liens sortants non naturels impactent-elles vraiment le classement d'un site ?
  9. 18:08 Les pénalités sur liens sortants impactent-elles vraiment le classement de votre site ?
  10. 18:08 Faut-il vraiment mettre tous ses liens sortants en nofollow pour protéger son SEO ?
  11. 19:42 Faut-il vraiment mettre tous ses liens sortants en nofollow pour protéger son PageRank ?
  12. 22:23 Pourquoi Google n'affiche-t-il pas toujours vos images dans les résultats de recherche ?
  13. 22:23 Comment Google choisit-il les images affichées dans les résultats de recherche ?
  14. 23:58 Combien de temps faut-il pour récupérer le trafic après un bug de redirections 301 ?
  15. 23:58 Les bugs techniques temporaires peuvent-ils définitivement plomber votre ranking Google ?
  16. 24:04 Un bug qui restaure vos anciennes URLs peut-il tuer votre SEO ?
  17. 24:08 Pourquoi Google crawle-t-il massivement votre site après une migration ?
  18. 27:47 Faut-il indexer une nouvelle URL avant d'y rediriger une ancienne en 301 ?
  19. 28:18 Faut-il vraiment attendre l'indexation avant de rediriger une URL en 301 ?
  20. 34:02 Pourquoi le test mobile-friendly donne-t-il des résultats contradictoires sur la même page ?
  21. 37:14 Pourquoi WebPageTest devrait-il être votre premier réflexe diagnostic en performance web ?
  22. 37:54 Les titres H1 sont-ils vraiment indispensables au classement de vos pages ?
  23. 38:06 Les balises H1 et H2 sont-elles vraiment importantes pour le ranking Google ?
  24. 39:58 Plugin ou code manuel : le structured data marque-t-il vraiment des points différents ?
  25. 39:58 Faut-il coder manuellement ses données structurées ou utiliser un plugin WordPress ?
  26. 41:04 Faut-il vraiment s'inquiéter d'une erreur 503 sur son site pendant quelques heures ?
  27. 41:04 Une erreur 503 peut-elle vraiment pénaliser le référencement de votre site ?
  28. 43:15 Pourquoi vos rich snippets FAQ disparaissent-ils malgré un balisage techniquement valide ?
  29. 43:15 Pourquoi vos rich results disparaissent-ils des SERP classiques alors qu'ils fonctionnent techniquement ?
  30. 43:15 Pourquoi vos rich snippets disparaissent-ils alors que votre balisage est techniquement correct ?
  31. 47:02 Pourquoi Search Console affiche-t-elle des URLs indexées mais absentes du sitemap ?
  32. 48:04 Faut-il vraiment modifier le lastmod du sitemap pour accélérer le recrawl après correction de balises manquantes ?
  33. 48:04 Faut-il modifier la date lastmod du sitemap après une simple correction de meta title ou description ?
  34. 50:43 Pourquoi le rapport Rich Results dans Search Console reste-t-il vide malgré un markup valide ?
  35. 50:43 Pourquoi Google affiche-t-il de moins en moins vos FAQ en rich results ?
  36. 50:43 Pourquoi le rapport Search Console n'affiche-t-il pas votre balisage FAQ validé ?
  37. 51:17 Pourquoi Google affiche-t-il de moins en moins les FAQ en résultats enrichis ?
  38. 54:21 Googlebot ignore-t-il vraiment l'accept-language header de votre site multilingue ?
  39. 54:21 Google peut-il vraiment faire la différence entre vos pages multilingues ou risque-t-il de les canonicaliser par erreur ?
  40. 57:01 Hreflang mal configuré : incohérence langue-contenu, risque d'indexation réel ?
  41. 57:14 Googlebot envoie-t-il vraiment un en-tête accept-language lors du crawl ?
📅
Official statement from (5 years ago)
TL;DR

Google asserts that if a Japanese page is assigned a Portuguese canonical, the issue lies in your server configuration (incorrectly set content negotiation) or inconsistent hreflang/canonical tags. The engine does not confuse two distinct language versions by itself. In practice: check that your server does not return varying language variants based on the Accept-Language header, and that your canonical tags point to the correct version.

What you need to understand

What does "accept-language based content negotiation" really mean?

Some servers analyze the HTTP Accept-Language header sent by the browser or Googlebot to decide which language version to serve. If this mechanism is poorly configured, Googlebot receives either the Japanese version or the Portuguese version on the same URL. The crawler then registers conflicting signals.

The problem becomes critical when the canonical tag of the Japanese page points to the Portuguese URL—or vice versa—because the server dynamically serves different content based on the context. Google indexes what it sees, and if what it sees changes with every crawl, the canonical floats between versions.

Why shouldn't Google confuse two distinct languages?

Google treats translated content as fundamentally different. Two pages in two languages are not duplicates in the classical sense: they target distinct audiences and queries. In theory, the engine should never consolidate a Japanese page and a Portuguese page under a single canonical.

If this occurs nonetheless, it is because the technical signals sent to the crawler are inconsistent. Either the server returns the same URL with variable content, or the hreflang/canonical tags are poorly implemented, or both. Google does not guess: it follows what you declare explicitly.

What configuration errors lead to this bug?

The most common cases include Apache or Nginx servers configured to serve dynamic content based on Accept-Language without a 302 redirect, or CMS platforms that generate canonical tags pointing to a "default language" regardless of the displayed version.

Another classic pitfall: maldefined cross hreflang tags. If the Japanese page declares an hreflang to Portuguese but lacks correct reciprocity, or if the canonical does not correspond to the self-declared URL, Google receives conflicting instructions and chooses arbitrarily.

  • Poorly configured content negotiation: the server returns language variants on the same URL based on the HTTP Accept-Language header, without clear redirection.
  • Inconsistent canonical tags: a Japanese page points its canonical to a Portuguese URL, or vice versa.
  • Asymmetrical hreflang: hreflang annotations are not bidirectional, or point to URLs that do not mutually recognize each other.
  • URLs without clear language markers: identical URL structures across versions (/page vs /page), making distinction impossible without content inspection.
  • Non-transparent conditional redirects: 302 redirects based on Accept-Language that hide the true structure from the crawler.

SEO Expert opinion

Is this statement consistent with field observations?

Yes, but with a nuance: Google does not confuse two languages when technical signals are clean. However, on poorly configured sites, floating canonicals between language versions are regularly observed. Mueller points to the server and the tags—and he is correct 90% of the time.

The problem is that many CMS platforms generate these errors by default. Multilingual WordPress with WPML, Drupal with i18n, or poorly thought-out custom setups create asymmetrical hreflang or canonicals that consistently point to the "main" language. The SEO practitioner must manually audit.

What nuances should be added to this rule?

Mueller does not mention a frequent edge case: almost identical content between regional variants. A page in Brazilian Portuguese and a page in European Portuguese with 95% common text may be treated as near-duplicates if the hreflang tags are not impeccable. Google then chooses a "dominant" canonical based on other signals (links, engagement, etc.).

Another point: the statement assumes that the content is actually distinct. If you serve poorly translated machine Japanese with an identical HTML structure to the Portuguese version, Google might decide that one is a copy of the other, regardless of the displayed language. [To verify]: no public data specifies the similarity threshold at which Google transitions from a "language variant" logic to "duplicate".

In which cases does this rule not apply?

If your site uses subdomains or distinct domains by language (e.g., jp.example.com vs pt.example.com), the content negotiation problem disappears. Each subdomain serves unique content, and cross canonicals become impossible by construction. This is the most robust architecture to avoid this bug.

Conversely, if you use a single domain with URL parameters to switch the language (e.g., example.com/page?lang=ja), you are on treacherous ground. Google explicitly recommends avoiding this approach, as it makes hreflang fragile and canonicals ambiguous. In this case, Mueller's statement applies doubly.

Warning: Sites with dynamic content negotiation (server choosing language based on Accept-Language) must implement transparent 302 redirects or Vary: Accept-Language headers. Without this, Googlebot hides random versions, and canonicals drift.

Practical impact and recommendations

How can you check that your server configuration is not causing this bug?

Test manually with curl by modifying the Accept-Language header. If curl -H "Accept-Language: ja" https://example.com/page returns Japanese and curl -H "Accept-Language: pt" returns Portuguese on the same URL, you have a problem. Google will see different content with each crawl.

Use Google Search Console to inspect the URL: check that the crawled version corresponds to the expected language. If the tool shows either Japanese or Portuguese for the same URL intermittently, your server is negotiating content in an opaque manner.

What errors should be avoided in hreflang and canonical tags?

Each page must point its canonical to itself (self-referencing canonical) and declare bidirectional hreflang. If /ja/page points to /pt/page in canonical, it's a fatal error. If /ja/page declares hreflang="pt" to /pt/page, but /pt/page does not declare hreflang="ja" to /ja/page, Google ignores the annotations.

Avoid hreflang with URL parameters or URLs that change based on context. Prefer stable URL structures (/fr/, /en/, /ja/) or distinct subdomains. Canonicals should point to absolute URLs, never relative, to avoid ambiguity.

What concrete steps should be taken to correct this problem?

Disable accept-language based content negotiation if it is in place. Instead, redirect users according to their language via client-side JavaScript, or always serve the same language on a given URL and let the user switch manually.

Audit all your canonical tags with a crawler (Screaming Frog, OnCrawl): each language version must point to its own URL. Check that hreflang are symmetrical: each page cited in an hreflang must refer back to all other versions, including itself.

  • Test URLs with curl and different Accept-Language headers to detect variable content on the same URL.
  • Ensure that each page has a self-referencing canonical pointing to its own absolute URL.
  • Audit hreflang tags to ensure they are bidirectional and complete (all language versions cited mutually).
  • Disable server content negotiation if it generates dynamic content based on Accept-Language without explicit redirection.
  • Inspect URLs in Google Search Console to confirm that the crawled version matches the expected language.
  • Favor a clear URL architecture (/fr/, /en/, /ja/) or distinct subdomains by language.
If Google selects a canonical in the wrong language, it's an alarm signal: your server or tags are misleading the crawler. First, correct the content negotiation, then audit canonical and hreflang. These technical optimizations can quickly become complex on large multilingual sites, especially with legacy CMS or exotic server configurations. In such cases, engaging an SEO agency specialized in multilingual architecture can save you months of debugging and ensure a clean implementation from the start.

❓ Frequently Asked Questions

Google peut-il vraiment confondre deux pages dans des langues totalement différentes ?
Non, si les signaux techniques sont corrects. Google traite les contenus traduits comme distincts par nature. Si une confusion se produit, c'est que le serveur renvoie du contenu variable sur une même URL ou que les balises canonical/hreflang sont incohérentes.
Qu'est-ce que la content negotiation basée sur Accept-Language ?
C'est une mécanique serveur qui analyse l'en-tête HTTP Accept-Language pour décider quelle version linguistique servir. Si mal configurée, elle renvoie du contenu différent à chaque crawl sur une même URL, ce qui perturbe l'indexation.
Les balises hreflang suffisent-elles à éviter ce problème ?
Non. Si votre serveur sert du contenu variable sur une même URL selon Accept-Language, les hreflang ne corrigent pas le bug. Il faut d'abord stabiliser le contenu servi par URL, puis déclarer des hreflang bidirectionnels corrects.
Comment savoir si mon site souffre de ce bug ?
Inspectez vos URLs multilingues dans Google Search Console et vérifiez que la version crawlée correspond à la langue attendue. Testez aussi avec curl en changeant Accept-Language : si le contenu varie sur une même URL, vous avez un problème.
Quelle architecture d'URL évite complètement ce risque ?
Les sous-domaines distincts par langue (jp.example.com, pt.example.com) ou les répertoires clairs (/ja/, /pt/) sans content negotiation dynamique. Évitez les paramètres d'URL (?lang=ja) et les serveurs qui négocient le contenu selon Accept-Language.
🏷 Related Topics
Domain Age & History Content Crawl & Indexing AI & SEO International SEO

🎥 From the same video 41

Other SEO insights extracted from this same Google Search Central video · duration 59 min · published on 11/08/2020

🎥 Watch the full video on YouTube →

Related statements

💬 Comments (0)

Be the first to comment.

2000 characters remaining
🔔

Get real-time analysis of the latest Google SEO declarations

Be the first to know every time a new official Google statement drops — with full expert analysis.

No spam. Unsubscribe in one click.