Declaration officielle
Google impose une limite stricte : 50 000 URLs par fichier sitemap, jusqu'à 50 000 fichiers dans un index, soit 2,5 milliards de pages max. Au-delà d'un million d'URLs, la division en fichiers multiples devient obligatoire. Pour les gros sites, c'est une contrainte technique qui impacte directement la stratégie d'indexation et le crawl budget.
Ce qu'il faut comprendre
Pourquoi cette limite de 50 000 URLs par sitemap ?
Google a toujours imposé cette règle pour éviter la surcharge de ses serveurs lors du parsing des fichiers XML. Un sitemap surchargé ralentit le traitement, multiplie les erreurs de lecture, et complexifie la gestion des mises à jour incrémentales.
La limite de 50 Mo non compressés s'ajoute à celle des 50 000 entrées. Sur un site e-commerce avec des URLs longues et des métadonnées riches, tu atteins souvent la limite de poids avant celle du nombre d'entrées. Concrètement, un sitemap de 40 000 URLs peut déjà poser problème si chaque entrée contient des balises
Qu'est-ce qu'un index de sitemap et comment ça fonctionne ?
Un fichier d'index de sitemap (sitemap_index.xml) référence plusieurs sitemaps individuels. Google le crawle en premier, identifie tous les sous-fichiers, puis les traite séquentiellement ou en parallèle selon ton crawl budget.
L'index peut contenir jusqu'à 50 000 sitemaps, chacun listant 50 000 URLs. Cette architecture en deux niveaux permet de structurer proprement l'indexation : un sitemap par type de contenu, par langue, par profondeur, ou par fréquence de mise à jour.
Cette limite de 2,5 milliards de pages est-elle réaliste ?
Sur le papier oui, en pratique non. Aucun site ne soumet 2,5 milliards d'URLs via sitemap pour une raison simple : Google n'indexera jamais cette masse. Le crawl budget d'un site, même majeur, se compte en dizaines de millions de pages crawlées par mois, pas en milliards.
Cette limite théorique sert surtout à gérer les sites multi-domaines ou les agrégateurs géants qui centralisent plusieurs plateformes sous un seul système de sitemaps. Pour un site classique, dépasser 10 millions d'URLs dans tes sitemaps signale souvent un problème de qualité ou de duplication.
- Un sitemap ne peut excéder 50 000 URLs ou 50 Mo non compressés
- Un index de sitemap accepte jusqu'à 50 000 fichiers individuels
- La capacité théorique totale atteint 2,5 milliards de pages
- Au-delà d'un million d'URLs, la segmentation en fichiers multiples devient obligatoire
- Le crawl budget réel limite drastiquement ce que Google indexera effectivement
Avis d'un expert SEO
Cette recommandation est-elle alignée avec les observations terrain ?
Totalement. Les sites qui poussent des sitemaps monolithiques de plusieurs centaines de milliers d'URLs constatent des délais d'indexation anormaux et des erreurs récurrentes dans la Search Console. Google traite les gros fichiers avec une priorité plus basse, ce qui pénalise les mises à jour fréquentes.
La segmentation par type de contenu ou par fréquence de mise à jour améliore le taux d'indexation. Un sitemap dédié aux articles récents, mis à jour toutes les heures, sera crawlé plus souvent qu'un fichier fourre-tout de 49 000 URLs mélangées. C'est du crawl budget management basique.
Quelles nuances faut-il apporter à cette consigne ?
Google ne dit rien sur la fréquence de mise à jour des sitemaps segmentés. Un index avec 500 fichiers mis à jour en continu crée une charge serveur non négligeable. Si ton infrastructure ne suit pas, tu risques des timeouts et des échecs de crawl.
Autre point : la balise lastmod devient critique sur les gros volumes. Sans elle, Google re-crawle inutilement des pages inchangées. Avec elle, tu guides le bot vers les contenus frais. Mais attention, une lastmod incorrecte (mise à jour alors que le contenu n'a pas bougé) dégrade ta crédibilité et ton crawl budget. [À vérifier] : Google a-t-il confirmé officiellement qu'une lastmod mensongère impacte négativement le crawl ? Les observations terrain le suggèrent, mais aucune déclaration publique claire.
Dans quels cas cette architecture peut-elle poser problème ?
Sur les sites avec génération dynamique de sitemaps, multiplier les fichiers augmente la complexité technique. Un bug dans le script de génération peut corrompre des centaines de fichiers, rendant l'index inutilisable. Le monitoring devient plus lourd.
Les CMS mal configurés créent parfois des doublons entre sitemaps. Une URL apparaît dans deux fichiers différents, Google la crawle deux fois, ton budget explose pour rien. La gestion des priorités entre sitemaps n'existe pas : tous sont traités égaux, ce qui peut frustrer quand tu veux pousser en priorité certaines sections.
Impact pratique et recommandations
Que faut-il faire concrètement pour structurer ses sitemaps ?
Commence par segmenter par type de contenu : un sitemap pour les articles, un pour les catégories, un pour les fiches produits, etc. Cette logique facilite le monitoring et permet d'ajuster les priorités d'indexation selon tes objectifs business.
Ensuite, subdivise par fréquence de mise à jour. Les pages qui bougent quotidiennement vont dans un sitemap à part, crawlé souvent. Les contenus statiques (CGU, mentions légales, pages institutionnelles) dans un autre, crawlé moins fréquemment. Google optimise ses passages en fonction de l'historique de fraîcheur.
Quelles erreurs éviter lors de la mise en place ?
Ne génère pas de sitemaps contenant des URLs bloquées par le robots.txt. Google les signale en erreur dans la Search Console, ce qui pollue tes rapports et gaspille du crawl budget. Vérifie la cohérence entre tes directives d'exploration et tes fichiers XML.
Évite les redirections dans les sitemaps. Soumets uniquement les URLs finales, en HTTPS, canoniques. Une URL qui redirige vers une autre signale une mauvaise gestion et ralentit le traitement. Google suit la redirection, mais ça consomme deux requêtes au lieu d'une.
Comment vérifier que la configuration est optimale ?
Utilise la Search Console pour monitorer le taux de couverture de chaque sitemap. Si un fichier affiche un taux d'indexation inférieur à 70%, creuse : problème de qualité, duplication, canonicalisation défaillante, ou URLs orphelines sans backlinks internes.
Compare la date de dernière lecture de chaque sitemap. Si un fichier n'est pas crawlé depuis des semaines alors qu'il contient du contenu frais, tu as un problème d'architecture ou de priorité. Teste la vitesse de réponse de ton serveur sur les URLs de sitemaps : un temps de réponse supérieur à 2 secondes ralentit le crawl.
- Segmenter les sitemaps par type de contenu et fréquence de mise à jour
- Ne jamais dépasser 50 000 URLs ou 50 Mo par fichier
- Vérifier que toutes les URLs sont crawlables, sans blocage robots.txt
- Soumettre uniquement des URLs finales, canoniques, en HTTPS
- Monitorer quotidiennement la Search Console pour détecter erreurs et anomalies
- Tester la vitesse de réponse du serveur sur les fichiers sitemaps
💬 Commentaires (0)
Soyez le premier à commenter.