Pourquoi Googlebot refuse-t-il de crawler les pages HTML de plus de 15 Mo ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Google a une limite de taille de requête de 15 mégaoctets pour l'exploration des pages web. Cette limite s'applique aux fichiers HTML individuels et est suffisamment grande pour la grande majorité des sites web.

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

💬 EN 📅 21/12/2023 ✂ 11 déclarations

Voir sur YouTube →

✂ Autres déclarations de cette vidéo 10 ▾

📅

Declaration officielle du 21 decembre 2023 (il y a 2 ans)

⚠ Une declaration plus recente existe sur ce sujet Comment distinguer un bon crawler d'un mauvais et pourquoi cela impacte-t-il vot... Gary Illyes · 26 aout 2025 Voir la declaration →

TL;DR

Googlebot impose une limite stricte de 15 Mo par fichier HTML. Au-delà, la page ne sera pas explorée intégralement, ce qui peut compromettre l'indexation. La majorité des sites ne dépassent jamais ce seuil, mais certaines configurations techniques ou erreurs d'intégration peuvent créer des fichiers HTML anormalement lourds.

Ce qu'il faut comprendre

Qu'est-ce que cette limite de 15 Mo signifie concrètement ?

Google ne crawle que les 15 premiers mégaoctets d'un fichier HTML. Si votre page dépasse cette taille, tout ce qui suit est ignoré : liens, contenu, balises structurées. C'est un point de coupure net.

Cette limite s'applique au code source HTML brut, pas aux ressources externes comme les images, CSS ou JavaScript. Un fichier HTML de 15 Mo, c'est colossal — équivaut à environ 15 000 pages Word de texte pur. La plupart des sites n'approcheront jamais ce seuil.

Pourquoi Google impose-t-il cette limite ?

Deux raisons principales : efficacité du crawl et protection des ressources. Explorer des fichiers HTML gigantesques consomme du temps machine et de la bande passante. Google doit prioriser.

De plus, un fichier HTML de cette taille signale souvent un problème technique : intégration chaotique de données JSON-LD massives, inclusion inline de milliers de lignes de SVG, ou erreur de génération côté serveur qui duplique du contenu à l'infini.

Quels types de sites risquent de dépasser cette limite ?

Très peu, en réalité. Les cas à risque incluent les pages de listings massifs (milliers de produits sur une seule page sans pagination), les sites embarquant des données structurées volumineuses directement dans le HTML, ou des single-page applications mal optimisées qui génèrent des DOM énormes côté serveur.

Les sites e-commerce avec filtres infinis ou les plateformes de données financières affichant des tableaux interminables sont les premiers suspects. Mais encore une fois : c'est exceptionnel.

Limite stricte : 15 Mo par fichier HTML, tout dépassement est ignoré
Périmètre : HTML brut uniquement, pas les ressources externes (images, scripts, CSS)
Risque principal : perte de contenu, liens non crawlés, indexation partielle
Sites concernés : pages de listings massifs, données structurées volumineuses inline, erreurs de génération serveur

Avis d'un expert SEO

Cette limite est-elle vraiment un problème pour la majorité des sites ?

Non. Soyons honnêtes : moins de 0,01 % des pages web dépassent 15 Mo de HTML. C'est une limite qui protège Google des configurations aberrantes, pas une contrainte courante. Si votre site est concerné, c'est qu'il y a un souci structurel à corriger de toute façon.

Les pages normales oscillent entre 50 Ko et 500 Ko de HTML. Même les pages complexes d'e-commerce avec beaucoup de contenu restent sous 2 Mo. Atteindre 15 Mo nécessite une accumulation d'erreurs techniques ou une architecture fondamentalement inadaptée.

Quels sont les cas limites qu'il faut surveiller ?

Les pages de résultats de recherche internes avec des milliers d'entrées affichées d'un coup, sans pagination. Les sites qui intègrent des JSON-LD massifs pour des événements ou des produits par milliers. Les plateformes embarquant des SVG complexes directement dans le HTML au lieu de les servir comme fichiers externes.

Et puis il y a les erreurs de génération côté serveur : boucles infinies, duplication de blocs entiers, includes mal configurés qui empilent du contenu. Ces bugs créent des fichiers HTML monstrueux. [À vérifier] : Google ne précise pas si cette limite s'applique après compression gzip/brotli ou avant — mais il est raisonnable de supposer qu'elle s'applique au HTML brut, non compressé.

Cette règle impacte-t-elle le JavaScript rendering ?

Bonne question. La limite concerne le fichier HTML initial reçu par Googlebot, pas le DOM final après exécution du JavaScript. Si votre page génère 20 Mo de contenu côté client via JS, ce n'est pas directement concerné par cette règle.

Mais attention : une page qui génère un DOM gigantesque côté client aura d'autres problèmes (performance, Core Web Vitals, timeout du renderer). La limite de 15 Mo ne vous sauvera pas d'une architecture JavaScript catastrophique.

Attention : Si vous suspectez dépasser cette limite, vérifiez immédiatement la taille de vos fichiers HTML dans les logs serveur. Une page non crawlée intégralement perd des liens internes, du contenu sémantique, et peut compromettre l'indexation de sections entières de votre site.

Impact pratique et recommandations

Comment vérifier si mon site dépasse cette limite ?

Première étape : audit des fichiers HTML. Utilisez un outil comme Screaming Frog ou OnCrawl pour extraire la taille des pages en octets. Triez par taille décroissante et identifiez les pages au-delà de 10 Mo — elles méritent une analyse détaillée.

Vous pouvez aussi interroger vos logs serveur : filtrez les requêtes de Googlebot et regardez la taille des réponses HTTP (header Content-Length). Si vous voyez des fichiers HTML de plusieurs mégaoctets, c'est un signal d'alarme.

Quelles actions correctives mettre en place ?

Si une page dépasse la limite, trois axes d'optimisation : pagination, externalisation, et nettoyage du code. Découpez les listings massifs en pages plus petites avec une pagination claire. Externalisez les données structurées volumineuses dans des fichiers JSON séparés si possible, ou réduisez leur granularité.

Côté technique : supprimez les SVG inline inutiles, les scripts et styles embarqués (passez-les en fichiers externes), et traquez les erreurs de génération (boucles, duplications). Un fichier HTML propre ne dépasse jamais quelques centaines de Ko, même pour des pages riches.

Faut-il surveiller cette métrique en continu ?

Oui, surtout si votre site génère du contenu dynamique ou agrège des données volumineuses. Intégrez un monitoring automatique de la taille des fichiers HTML dans votre pipeline de déploiement. Une alerte à 5 Mo vous laisse de la marge avant d'atteindre la limite critique.

Les outils de log analysis (OnCrawl, Botify) peuvent vous aider à détecter les pages anormalement lourdes crawlées par Googlebot. Configurez des alertes automatiques si une URL dépasse un seuil prédéfini.

Auditer la taille des fichiers HTML avec Screaming Frog ou OnCrawl
Analyser les logs serveur pour identifier les réponses volumineuses à Googlebot
Paginer les listings massifs plutôt que d'afficher des milliers d'entrées sur une page
Externaliser les SVG, scripts et styles inline en fichiers séparés
Réduire la granularité des JSON-LD si nécessaire
Configurer un monitoring continu avec alertes au-delà de 5 Mo

Dépasser 15 Mo de HTML est rare, mais catastrophique pour l'indexation. Identifiez les pages à risque, optimisez leur structure, et mettez en place une surveillance proactive. Si votre site manipule de gros volumes de données ou génère des pages complexes, ces optimisations peuvent rapidement devenir techniques et chronophages. Un accompagnement par une agence SEO spécialisée peut vous faire gagner du temps et sécuriser l'indexation de vos contenus critiques sans naviguer à vue.

❓ Questions frequentes

Cette limite de 15 Mo s'applique-t-elle aux fichiers CSS et JavaScript ?

Non. La limite concerne uniquement les fichiers HTML. CSS, JavaScript, images et autres ressources externes ont leurs propres contraintes de taille, mais ne sont pas soumis à cette règle spécifique.

Que se passe-t-il si ma page dépasse 15 Mo ?

Googlebot arrête l'exploration au 15e mégaoctet. Tout contenu, lien ou balise situé au-delà est ignoré, ce qui peut empêcher l'indexation de parties entières de votre page.

Comment savoir si Googlebot a tronqué une de mes pages ?

Comparez la taille du fichier HTML servi avec ce que Google indexe. Utilisez l'outil d'inspection d'URL dans la Search Console et vérifiez le code HTML récupéré par Google. S'il est incomplet, c'est un indicateur.

Les pages AMP ou les Progressive Web Apps sont-elles concernées ?

Oui, si le fichier HTML initial dépasse 15 Mo. Les technologies utilisées (AMP, PWA) n'exemptent pas de cette limite. C'est la taille brute du fichier HTML qui compte.

Cette limite est-elle la même pour tous les Googlebots (mobile, desktop, images) ?

Google n'a pas précisé de différence selon le user-agent, donc on suppose que la limite s'applique uniformément à tous les crawlers Googlebot.

🏷 Sujets associes

crawl budget indexation Googlebot HTML optimisation technique taille fichier logs serveur

Anciennete & Historique Crawl & Indexation HTTPS & Securite IA & SEO PDF & Fichiers

🎥 De la même vidéo 10

Autres enseignements SEO extraits de cette même vidéo Google Search Central · publiée le 21/12/2023

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Focus continu sur la qualité du contenu en 2024...

L'élément title reste un élément HTML fondamental ...

« Retour aux resultats