Google détecte-t-il vraiment le duplicate content après le rendu JavaScript ?

Declaration officielle

Google calcule des hash de contenu sur le HTML initial pour la déduplication, mais compare ensuite ces hash avec ceux obtenus après le rendu JavaScript. La décision finale de duplication et canonicalisation prend en compte le HTML rendu, pas uniquement l'initial.

30:01

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 46:02 💬 EN 📅 25/11/2020 ✂ 29 déclarations

Voir sur YouTube (30:01) →

✂ Autres déclarations de cette vidéo 28 ▾

1:02 Google rend-il vraiment toutes les pages JavaScript, quelle que soit leur architecture ?
1:02 Google rend-il vraiment TOUT le JavaScript, même sans contenu initial server-side ?
2:05 Comment vérifier que Googlebot crawle vraiment votre site ?
2:05 Comment vérifier que Googlebot est vraiment Googlebot et pas un imposteur ?
2:36 Google limite-t-il vraiment le temps CPU lors du rendu JavaScript ?
2:36 Google limite-t-il vraiment le temps CPU lors du rendu JavaScript ?
3:09 Faut-il arrêter d'optimiser pour les bots et se concentrer uniquement sur l'utilisateur ?
5:17 La propriété CSS content-visibility impacte-t-elle le rendu dans Google ?
8:53 Comment mesurer les Core Web Vitals sur Firefox et Safari sans API native ?
11:00 Combien de temps Google attend-il vraiment avant d'abandonner le rendu JavaScript ?
11:00 Combien de temps Googlebot attend-il vraiment pour le rendu JavaScript ?
20:07 Pourquoi Google affiche-t-il des pages vides alors que votre site JavaScript fonctionne parfaitement ?
20:07 AJAX fonctionne en SEO, mais faut-il vraiment l'utiliser ?
21:10 Le JavaScript bloquant peut-il vraiment empêcher Google d'indexer tout le contenu de vos pages ?
24:48 Le prérendu dynamique est-il devenu un piège pour l'indexation ?
26:25 Pourquoi vos ressources supprimées peuvent-elles détruire votre indexation en prérendu ?
26:47 Que fait vraiment Google avec votre HTML initial avant le rendu JavaScript ?
27:28 Google analyse-t-il vraiment tout dans le HTML initial avant le rendu ?
27:59 Pourquoi Google ignore-t-il le rendu JavaScript si votre balise noindex apparaît dans le HTML initial ?
27:59 Pourquoi une page 404 avec JavaScript peut-elle faire désindexer tout votre site ?
28:30 Pourquoi Google refuse-t-il de rendre le JavaScript si le HTML initial contient un meta noindex ?
30:00 Google compare-t-il vraiment le HTML initial ET rendu pour la canonicalisation ?
31:36 Les APIs GET sont-elles vraiment mises en cache par Google comme les autres ressources ?
31:36 Google cache-t-il vraiment les requêtes POST lors du rendu JavaScript ?
34:47 Est-ce que Google indexe vraiment toutes les pages après rendu JavaScript ?
35:19 Google rend-il vraiment 100% des pages JavaScript avant indexation ?
36:51 Pourquoi vos APIs défaillantes sabotent-elles votre indexation Google ?
37:12 Les données structurées sur pages noindex sont-elles vraiment perdues pour Google ?

📅

Declaration officielle du 25 novembre 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Le duplicate content technique pénalise-t-il vraiment votre site ? John Mueller · 15 janvier 2021 Voir la declaration →

TL;DR

Google calcule des hash de contenu sur le HTML initial pour détecter les duplications, mais ne s'arrête pas là. Il compare ensuite ces empreintes avec celles obtenues après exécution du JavaScript. La décision finale de canonicalisation repose sur le HTML rendu, ce qui change la donne pour les sites en client-side rendering : votre contenu pré-JS peut passer inaperçu si le rendu final diffère.

Ce qu'il faut comprendre

Qu'est-ce qu'un hash de contenu et pourquoi Google l'utilise-t-il deux fois ?

Un hash de contenu est une empreinte numérique unique générée à partir du HTML d'une page. Google utilise cette technique pour identifier rapidement les pages identiques ou quasi-identiques sans devoir comparer ligne par ligne des millions de documents.

La révélation de Martin Splitt précise que Google génère un premier hash sur le HTML brut — celui que le serveur envoie directement — puis un second hash après exécution du JavaScript. Cette double passe permet de détecter les duplications qui n'apparaîtraient qu'après le rendu côté client, un scénario fréquent avec les frameworks modernes comme React, Vue ou Angular.

Pourquoi cette distinction entre HTML initial et rendu change-t-elle la donne ?

Pendant des années, l'industrie SEO a débattu du moment exact où Google détecte les duplications : avant ou après le rendu JavaScript ? Cette déclaration tranche : la décision finale se base sur le HTML rendu, pas sur l'initial.

Concrètement, si deux pages affichent un HTML initial différent mais produisent un contenu identique après exécution du JS, Google les considérera comme duplicates potentiels. À l'inverse, deux pages avec un shell HTML identique mais du contenu JavaScript distinct seront traitées comme uniques.

Dans quels cas cette mécanique devient-elle critique ?

Les sites en Single Page Application (SPA) sont les premiers concernés. Leur HTML initial est souvent squelettique — un simple conteneur générique — tandis que le contenu réel s'injecte via JavaScript. Sans le rendu, toutes les pages d'un SPA auraient un hash quasi-identique.

Les sites e-commerce avec des filtres côté client sont également exposés. Si le HTML initial est le même pour toutes les combinaisons de filtres, mais que le JS génère des listings produits différents, Google doit attendre le rendu pour discriminer ces variantes.

Hash sur HTML initial : première passe rapide, détection grossière des duplications évidentes
Hash sur HTML rendu : décision finale, prise en compte du contenu généré par JavaScript
Canonicalisation : basée sur le contenu rendu, pas sur le HTML brut reçu du serveur
Implication pour les SPA : le shell générique ne suffit pas à différencier les pages, le JS devient décisif
Budget de rendu : cette double détection consomme du temps et des ressources, surtout sur les gros sites

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Oui, elle confirme ce que plusieurs tests empiriques suggéraient depuis l'essor des SPA. Des cas documentés montraient que Google indexait du contenu inexistant dans le HTML source mais présent après rendu — preuve qu'il exécutait le JavaScript avant de finaliser la canonicalisation.

Cependant, un point reste flou : quel délai entre les deux hash ? Martin Splitt ne précise pas si le rendu intervient immédiatement ou si Google peut laisser passer plusieurs jours entre le crawl du HTML initial et son exécution JavaScript. Sur les sites à fort volume, ce délai peut créer des situations transitoires où Google traite temporairement des pages comme duplicates avant de les différencier post-rendu. [À vérifier]

Quelles nuances faut-il apporter à cette affirmation ?

Google ne garantit pas que toutes les pages passeront par le rendu JavaScript. Le budget alloué à l'exécution JS reste limité, surtout pour les sites peu autoritaires ou mal structurés. Si Google décide qu'une page est duplicate sur la base du HTML initial, il peut choisir de ne jamais la rendre — économisant ainsi des ressources.

Autre nuance : la vitesse de rendu influence la décision. Une page qui met 10 secondes à charger son contenu via JS risque que Google abandonne avant la fin, capturant un état incomplet. Le hash généré ne refléterait alors pas le contenu final, biaisant la détection de duplication.

Dans quels cas cette règle pourrait-elle ne pas s'appliquer pleinement ?

Les pages orphelines — sans liens internes ni externes — ont peu de chances de bénéficier d'un rendu JavaScript si Google les découvre uniquement via le sitemap. Le moteur peut appliquer un hash sur HTML initial sans aller plus loin, faute de signaux de qualité suffisants.

Les sites avec des erreurs JavaScript critiques subissent le même traitement. Si l'exécution du JS échoue, Google se rabat sur le HTML initial. Dans ce scénario, deux pages avec le même shell HTML mais du JS différent seraient considérées comme duplicates, même si le rendu aurait dû les différencier.

Attention : Google ne documente pas publiquement les seuils de budget de rendu JavaScript. Les affirmations sur « toutes les pages sont rendues » restent théoriques. En pratique, seules les pages jugées prioritaires par l'algorithme bénéficient systématiquement du rendu.

Impact pratique et recommandations

Que faut-il auditer en priorité sur un site JavaScript ?

Commence par comparer le HTML source et le DOM rendu sur un échantillon représentatif de pages. Utilise les DevTools de Chrome (Ctrl+U pour le source, Inspect pour le DOM rendu). Si le contenu principal diffère massivement, tu dépends entièrement du rendu JavaScript pour échapper aux duplications.

Vérifie ensuite que les balises canoniques sont présentes dès le HTML initial. Google lit ces balises avant le rendu, ce qui influence la priorisation du crawl. Une canonical absente du HTML brut mais injectée en JS arrive trop tard pour certaines décisions de budget.

Comment s'assurer que Google rend effectivement mes pages JS ?

Utilise l'outil d'inspection d'URL de la Search Console. Il affiche le HTML rendu tel que Googlebot le voit. Compare-le avec ton HTML source : si les différences attendues apparaissent, le rendu fonctionne. Sinon, tu as un problème d'exécution JavaScript.

Surveille les logs serveur pour repérer les appels de Googlebot vers tes APIs ou ressources JavaScript. Un site SPA sans requêtes API dans les logs indique que Google ne rend pas le contenu — il se contente du shell initial. Cela signale soit un budget de rendu insuffisant, soit des erreurs bloquantes.

Quelles erreurs techniques amplifient le risque de duplicate content ?

Le contenu généré avec un délai pose problème. Si ton JavaScript attend 3 secondes avant d'injecter le contenu principal, Google peut capturer un état intermédiaire vide ou incomplet. Le hash résultant sera identique pour plusieurs pages, créant de faux duplicates.

Les requêtes asynchrones non gérées aggravent le problème. Si Google rend ta page avant que tes appels fetch() ne reviennent, il hash un DOM incomplet. Implémente un mécanisme signalant à Google que le contenu est prêt — par exemple, un événement personnalisé ou un indicateur DOM.

Auditer la différence entre HTML source et DOM rendu sur 50-100 URLs clés
Placer les balises canonical dans le HTML initial, pas uniquement en JavaScript
Tester l'inspection d'URL Search Console pour confirmer le rendu effectif
Analyser les logs serveur pour détecter les appels Googlebot vers les ressources JS/API
Éliminer les délais d'injection de contenu supérieurs à 2 secondes
Implémenter un indicateur DOM signalant la fin du chargement asynchrone

La détection de duplicate content après rendu JavaScript introduit une complexité technique significative. Entre la surveillance du budget de rendu, l'optimisation des temps d'exécution JS et l'analyse comparative des hash, les sites modernes nécessitent un niveau d'expertise avancé. Face à ces enjeux multi-couches — serveur, client, crawl, indexation — faire appel à une agence SEO spécialisée dans les architectures JavaScript permet d'éviter les erreurs coûteuses et de garantir que chaque page bénéficie du traitement approprié par Google.

❓ Questions frequentes

Google calcule-t-il un hash sur toutes les pages ou seulement certaines ?

Google calcule un hash sur toutes les pages crawlées, mais le rendu JavaScript n'est pas systématique. Les pages prioritaires, bien liées et sur des sites autoritaires ont plus de chances de bénéficier du rendu complet.

Si mon HTML initial est identique sur toutes les pages, suis-je pénalisé ?

Pas directement, mais tu dépends entièrement du rendu JavaScript pour différencier tes pages. Si Google ne rend pas certaines URLs, elles seront traitées comme duplicates du shell générique.

La balise canonical doit-elle être dans le HTML initial ou le JS suffit-il ?

Elle doit impérativement figurer dans le HTML initial. Google la lit avant le rendu pour prioriser le crawl. Une canonical uniquement en JS arrive trop tard pour certaines décisions d'indexation.

Comment savoir si Google a rendu ma page ou s'est arrêté au HTML brut ?

Utilise l'outil d'inspection d'URL de la Search Console. Il affiche le DOM rendu tel que Googlebot l'a capturé. Compare-le avec ton HTML source pour identifier les différences.

Un site en server-side rendering échappe-t-il à ce problème ?

Oui, en grande partie. Le SSR envoie du HTML complet dès la réponse serveur, évitant la dépendance au rendu JavaScript. Le hash initial et le hash rendu sont alors quasi-identiques, simplifiant la détection de duplications.

🏷 Sujets associes

duplicate content rendu JavaScript hash contenu canonicalisation SPA crawl budget HTML rendu indexation Google

Contenu Crawl & Indexation IA & SEO JavaScript & Technique

🎥 De la même vidéo 28

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 46 min · publiée le 25/11/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Date de lancement du facteur de classement Page Ex...

Rendu JavaScript et décision de Google...

« Retour aux resultats