Declaration officielle
Autres déclarations de cette vidéo 22 ▾
- 3:03 Les erreurs 404 temporaires lors d'une migration tuent-elles vraiment votre référencement ?
- 4:56 Googlebot crawle depuis les USA : comment éviter le piège du cloaking géo-IP ?
- 8:42 Peut-on vraiment bloquer Googlebot état par état aux USA sans tout casser ?
- 11:31 Pourquoi Google n'indexe-t-il pas toutes vos pages malgré un crawl actif ?
- 12:17 Les liens nofollow de Reddit sont-ils vraiment inutiles pour le SEO ?
- 14:14 Faut-il systématiquement activer loading='lazy' sur toutes vos images pour booster le SEO ?
- 15:25 Faut-il vraiment réduire le nombre de versions linguistiques pour hreflang ?
- 18:27 Faut-il vraiment corriger toutes les erreurs 404 remontées dans Search Console ?
- 20:47 Les jump links sont-ils vraiment inutiles pour le crawl de Google ?
- 21:55 Faut-il désavouer les backlinks fantômes visibles uniquement dans Search Console ?
- 23:20 Pourquoi le fichier Disavow ne masque-t-il pas les mauvais liens dans Search Console ?
- 29:18 Faut-il vraiment contextualiser l'attribut alt au-delà de la description visuelle ?
- 32:47 Faut-il vraiment s'inquiéter des redirections 301 et pages 404 multiples ?
- 33:02 Google déclasse-t-il algorithmiquement certains secteurs en période de crise sanitaire ?
- 34:06 Faut-il vraiment utiliser plusieurs noms de domaine pour un site multilingue ?
- 36:28 Faut-il vraiment rendre toutes les images de recettes indexables pour performer en SEO ?
- 38:15 Hreflang garantit-il vraiment le bon ciblage géographique de votre trafic international ?
- 41:05 Pourquoi Google indexe-t-il une seule version quand vos pages pays sont quasi-identiques ?
- 45:51 Faut-il créer du contenu différent pour indexer plusieurs variantes d'un même service ?
- 46:27 Faut-il créer une nouvelle page ou modifier l'existante pour un changement temporaire ?
- 49:01 Faut-il vraiment éviter les balises title et meta description multiples sur une même page ?
- 52:13 Les erreurs 500/503 de quelques heures sont-elles vraiment invisibles pour votre indexation ?
Google confirme que les URLs contenant des caractères non-ASCII (accents, idéogrammes, cyrillique) sont acceptées dans les sitemaps XML, à condition de respecter l'encodage spécifié dans la spec sitemap. Concrètement, vous pouvez soumettre des URLs avec caractères UTF-8 sans conversion préalable en pourcentages encodés. Mais attention : la compatibilité avec les parseurs tiers et certains outils d'analyse reste une zone grise qu'il faut tester en amont.
Ce qu'il faut comprendre
Que signifie « caractères non-ASCII » dans ce contexte ?
Les caractères ASCII couvrent uniquement les 128 premiers symboles du jeu de caractères anglais basique : lettres sans accent, chiffres, ponctuation courante. Tout ce qui sort de ce périmètre — accents français, trémas allemands, idéogrammes chinois, alphabet cyrillique — relève du non-ASCII.
Dans un contexte URL, ces caractères sont traditionnellement échappés en pourcentage encoding : é devient %C3%A9, 你 devient %E4%BD%A0. La déclaration de Mueller précise que cette conversion n'est pas obligatoire dans un sitemap XML, tant que l'encodage UTF-8 est déclaré dans l'en-tête XML.
Pourquoi cette clarification est-elle nécessaire ?
Historiquement, les spécifications URL (RFC 3986) imposent que tout caractère hors ASCII soit encodé en pourcentages. De nombreux SEO ont donc pris l'habitude de pré-encoder leurs URLs avant de les insérer dans les sitemaps, pensant que Googlebot refuserait les caractères bruts.
Mueller coupe court à ce réflexe : Google accepte les deux formats. Vous pouvez soumettre https://example.fr/café ou https://example.fr/caf%C3%A9 dans votre sitemap — les deux fonctionnent. C'est une simplification technique qui évite une étape de transformation côté CMS.
Quelle est la spécification sitemap dont il parle ?
Le protocole sitemap XML est décrit sur sitemaps.org, qui stipule que les URLs doivent suivre la norme RFC 3986 mais que les entités XML peuvent être utilisées pour échapper certains caractères réservés (<, >, &). L'encodage du fichier lui-même est UTF-8 par défaut.
En clair : tant que votre fichier XML déclare encoding="UTF-8" dans son prologue, Googlebot interprète correctement les caractères multi-octets. Pas besoin de double-encodage ni de contorsions. C'est le parseur XML qui gère la conversion en interne.
- Les caractères non-ASCII sont autorisés dans les URLs de sitemap XML sans conversion préalable en pourcentages encodés.
- L'encodage UTF-8 doit être explicitement déclaré dans l'en-tête XML (généralement présent par défaut).
- Les deux formats (caractères bruts et pourcentage encoding) sont acceptés par Googlebot et traités de manière équivalente.
- Attention aux outils tiers : tous les parseurs XML ne gèrent pas aussi bien les caractères multi-octets, surtout les vieux systèmes legacy.
- Les entités XML (<, >, &) restent obligatoires pour les caractères réservés dans la syntaxe XML elle-même.
Avis d'un expert SEO
Cette déclaration est-elle cohérente avec les pratiques observées ?
Sur le terrain, les observations concordent : Google crawle et indexe correctement les URLs avec caractères non-ASCII bruts dans les sitemaps XML depuis des années. Les sites e-commerce français, allemands ou japonais qui n'encodent pas leurs URLs en pourcentages ne subissent aucun désavantage de crawl.
Cela dit, Mueller reste flou sur un point critique : la normalisation des URLs. Google canonicalise-t-il les URLs identiques soumises en version brute et en version encodée ? La réponse officielle manque, mais les tests montrent que Google traite les deux comme des variantes de la même ressource — sauf si le serveur renvoie des codes HTTP différents selon la forme. [À vérifier] au cas par cas avec des logs serveur.
Quels risques cette souplesse introduit-elle ?
Le principal écueil concerne les outils d'analyse tiers : Screaming Frog, Botify, OnCrawl et autres parseurs de logs. Certains éditeurs ne gèrent pas correctement les caractères UTF-8 multi-octets dans leurs comparaisons d'URLs, ce qui génère des faux doublons ou des erreurs d'appariement entre sitemap et logs.
Concrètement, vous pourriez soumettre une URL avec accent dans le sitemap, voir Googlebot la crawler correctement, mais ne pas réussir à matcher cette visite dans vos outils de reporting parce que l'outil encode différemment la chaîne. Frustrant mais pas bloquant — c'est un problème de dashboard, pas de SEO.
Faut-il tout de même encoder par précaution ?
Franchement, non. Encoder systématiquement les URLs complique la maintenance : les URLs lisibles (avec accents) sont plus faciles à déboguer, à lire dans les logs, à communiquer aux devs. Si Google accepte les deux formats, autant privilégier le plus simple.
Une exception : les sites multilingues avec plusieurs alphabets (latin + cyrillique + chinois). Dans ce cas, garder un encodage homogène (tout en pourcentages) peut simplifier les regex et les traitements automatisés côté serveur. Mais c'est un choix d'architecture, pas une contrainte SEO.
Impact pratique et recommandations
Que faut-il faire concrètement sur un site existant ?
Commencez par un audit de votre sitemap actuel : extrayez un échantillon d'URLs et vérifiez le format (brut ou encodé). Si tout est déjà encodé et que ça fonctionne, pas de raison de changer — ce n'est pas un facteur de ranking.
Si vous générez les sitemaps dynamiquement via un CMS ou un script, assurez-vous que l'en-tête XML déclare encoding="UTF-8". Vérifiez également que votre serveur web renvoie le Content-Type application/xml; charset=UTF-8 pour éviter les erreurs de parsing par des clients stricts.
Comment gérer les URLs multilingues dans les sitemaps ?
Pour les sites avec plusieurs alphabets, le plus simple est de soumettre un sitemap par langue/région et de garder un encodage cohérent au sein de chaque fichier. Cela facilite le debug et réduit les risques de collision entre caractères homographes (ex : latin 'a' vs cyrillique 'а').
Si vous utilisez les balises hreflang dans vos sitemaps, veillez à ce que les URLs de destination soient exactement celles que le serveur renvoie en 200. Un décalage entre URL brute dans le sitemap et URL encodée dans le header Location d'une redirection peut créer des boucles ou des signaux mixtes pour Googlebot.
Quelles erreurs éviter lors de la génération des sitemaps ?
L'erreur classique : oublier d'échapper les entités XML réservées (&, <, >). Même si vos URLs contiennent des caractères non-ASCII valides, un & non échappé en & cassera le parsing du fichier XML entier. Google renverra une erreur dans la Search Console, et aucune URL ne sera crawlée.
Autre piège : mélanger encodages multiples dans le même sitemap (UTF-8 pour certaines URLs, ISO-8859-1 pour d'autres). Choisissez UTF-8 partout, c'est le standard web universel et celui que Google privilégie. Si votre base de données ou votre CMS hérite d'un encodage legacy, convertissez en amont.
- Vérifier que l'en-tête XML déclare encoding="UTF-8" dans le prologue du fichier sitemap.
- Tester le sitemap avec le validateur XML de la Search Console pour détecter les erreurs de parsing.
- S'assurer que le serveur renvoie le Content-Type application/xml; charset=UTF-8 pour les fichiers sitemap.
- Échapper systématiquement les entités XML réservées (&, <, >) même dans les URLs avec caractères non-ASCII.
- Croiser logs serveur et sitemap pour vérifier que les URLs crawlées correspondent aux URLs soumises (même forme, pas de redirection inattendue).
- Si vous changez de format (brut → encodé ou inverse), vérifier que le serveur ne génère pas de doublons ni de redirections parasites.
❓ Questions frequentes
Dois-je absolument encoder mes URLs en pourcentages dans le sitemap XML ?
Que se passe-t-il si je soumets la même URL en version brute et en version encodée ?
Les outils SEO tiers gèrent-ils correctement les URLs non-ASCII dans les sitemaps ?
Faut-il échapper les entités XML (&, <, >) dans les URLs du sitemap ?
Quel est le risque principal si je change le format de mes URLs dans le sitemap ?
🎥 De la même vidéo 22
Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 54 min · publiée le 15/05/2020
🎥 Voir la vidéo complète sur YouTube →
💬 Commentaires (0)
Soyez le premier à commenter.