Googlebot impose-t-il vraiment une limite de 15 Mo au crawl HTML ?

Declaration officielle

Googlebot crawle jusqu'à 15 mégabytes de HTML par page. Cette limite n'affecte pas la plupart des sites.

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

💬 EN 📅 28/09/2022 ✂ 14 déclarations

Voir sur YouTube →

✂ Autres déclarations de cette vidéo 13 ▾

□ Les données structurées pros/cons dans les avis vont-elles changer la donne en SERP ?
□ Les données structurées produits peuvent-elles vraiment transformer votre visibilité Google ?
□ Le nouveau rapport Merchant Listings de Search Console change-t-il la donne pour l'e-commerce ?
□ Le Helpful Content Update pénalise-t-il vraiment tout le site ou juste certaines pages ?
□ Faut-il vraiment oublier le SEO technique pour plaire à Google avec du contenu « people-first » ?
□ Pourquoi le Helpful Content Update ne ciblait-il initialement que l'anglais ?
□ Pourquoi Google maintient-il une page dédiée au suivi des mises à jour de ranking ?
□ Comment utiliser le nouveau rapport Video Indexing de Search Console pour débloquer vos vidéos ?
□ Comment exploiter les nouvelles données vidéo de l'outil d'inspection d'URL ?
□ Le rapport HTTPS de Search Console peut-il vraiment booster votre ranking ?
□ Search Console simplifie sa classification : faut-il revoir votre méthode de priorisation ?
□ Search Console va-t-elle vraiment abandonner le ciblage géographique ?
□ Comment optimiser vos feeds pour la fonctionnalité Follow de Google Discover ?

📅

Declaration officielle du 28 septembre 2022 (il y a 3 ans)

⚠ Une declaration plus recente existe sur ce sujet Le budget crawl est-il un mythe inventé par les SEO ? John Mueller · 5 mars 2024 Voir la declaration →

TL;DR

Googlebot crawle jusqu'à 15 mégabytes de HTML par page. Au-delà, le contenu est tronqué et ignoré pour l'indexation. Google affirme que cette limite n'affecte pas la plupart des sites, mais certains cas d'usage spécifiques peuvent se heurter à cette barrière.

Ce qu'il faut comprendre

Google fixe une limite technique stricte : 15 Mo de HTML par page. Cette contrainte concerne le document HTML brut, pas les ressources externes (images, CSS, JavaScript). Si votre page dépasse ce seuil, Googlebot arrête le téléchargement et indexe uniquement la portion qu'il a pu récupérer.

Cette déclaration de John Mueller vise à clarifier un paramètre technique souvent méconnu du processus de crawl. Contrairement au crawl budget qui régit la quantité de pages explorées, cette limite porte sur la taille individuelle de chaque document HTML.

Qu'est-ce qui compte dans ces 15 Mo ?

Seul le code HTML source est concerné. Les fichiers JavaScript, CSS, images, vidéos et autres ressources externes chargées via des requêtes séparées n'entrent pas dans le calcul. On parle du document tel qu'il est renvoyé par le serveur lors de la requête initiale.

En pratique, cela signifie que le HTML généré côté serveur, le contenu inline et le DOM initial sont comptabilisés. Si vous injectez massivement du contenu ou des données JSON dans vos balises <script>, ça pèse.

Pourquoi Google impose-t-il cette limite ?

Une question de ressources et de performance. Crawler le web à l'échelle de Google nécessite d'arbitrer entre profondeur d'exploration et efficacité. Télécharger des dizaines de mégaoctets par page ralentirait le processus et consommerait une bande passante considérable pour un bénéfice marginal.

Google part du principe que si votre page HTML pèse plus de 15 Mo, soit vous avez un problème d'architecture, soit le contenu excédentaire n'apporte rien à l'expérience utilisateur ni à la compréhension sémantique de la page.

Quels sites risquent d'être impactés ?

La majorité des sites web ne frôlent même pas cette limite. Une page éditoriale classique pèse entre 50 Ko et 500 Ko de HTML. Même les pages complexes avec beaucoup de contenu dépassent rarement 2-3 Mo.

Les cas à risque ? Les sites e-commerce avec des milliers de produits chargés en dur dans le DOM, les applications web monopages (SPA) qui embarquent l'intégralité de leur state dans le HTML initial, ou les pages infinies générées côté serveur avec du lazy loading mal implémenté.

15 Mo de HTML brut : seul le document source compte, pas les ressources externes
Crawl tronqué : au-delà de la limite, le contenu est ignoré pour l'indexation
Cas rares : affecte principalement les architectures web lourdes ou mal optimisées
Aucune pénalité : Google ne sanctionne pas, il arrête simplement de télécharger

Avis d'un expert SEO

Cette limite est-elle cohérente avec les observations terrain ?

Oui. Cette déclaration correspond à ce que nous constatons depuis des années. Google a toujours eu des limites techniques implicites, et celle-ci n'est qu'une formalisation publique d'une contrainte déjà en place. Les audits techniques révèlent régulièrement des pages dont le contenu en bas de page n'est jamais indexé — souvent parce que le HTML est trop lourd ou que le temps de réponse dépasse les seuils de patience de Googlebot.

Cela dit, il faut nuancer : la limite de 15 Mo n'est probablement pas le seul facteur en jeu. D'autres mécanismes (timeout serveur, profondeur DOM, temps de traitement) peuvent couper le crawl bien avant qu'on atteigne ce plafond.

Que nous dit vraiment cette déclaration ?

Soyons honnêtes : cette limite est un signal indirect. Google nous dit entre les lignes que si votre HTML dépasse 15 Mo, vous avez un problème d'architecture. Aucun utilisateur humain ne devrait avoir à charger une telle masse de code pour afficher une page web.

Le message implicite : optimisez votre génération HTML, différez le chargement du contenu secondaire, utilisez le lazy loading côté client, et séparez vos données de votre présentation. [A vérifier] : on manque de données sur la fréquence réelle de dépassement de cette limite et son impact SEO concret. Google affirme que « la plupart des sites » ne sont pas concernés, mais aucune métrique précise n'est fournie.

Quelles sont les zones d'ombre ?

La déclaration reste floue sur plusieurs points. Qu'advient-il exactement du contenu situé après les 15 Mo ? Est-il totalement ignoré, ou Google peut-il y revenir lors d'un crawl ultérieur ? Aucune réponse officielle.

Autre question : cette limite s'applique-t-elle de la même manière au rendering JavaScript ? Si Googlebot exécute le JS et que le DOM résultant dépasse 15 Mo, y a-t-il une seconde limite ? Là encore, silence radio.

Attention : cette limite peut masquer des problèmes plus profonds. Si votre HTML approche les 15 Mo, le vrai enjeu n'est pas « comment contourner la limite » mais « pourquoi notre architecture génère des documents aussi lourds ». Avant de chercher à fragmenter, interrogez-vous sur la pertinence de votre stratégie de rendu.

Impact pratique et recommandations

Comment vérifier si mon site est concerné ?

Commencez par mesurer le poids HTML brut de vos pages stratégiques. Utilisez les DevTools de Chrome (onglet Network, filtrez sur « Doc ») ou un simple curl -I pour récupérer la taille du document initial. Concentrez-vous sur les pages à fort contenu : fiches produits, pages catégories, articles longs.

Si vous dépassez 5 Mo, creusez. Au-delà de 10 Mo, vous êtes en zone rouge. Inspectez le code source : cherchez les blocs de données JSON embarqués, les variables JavaScript inline, les métadonnées excessives.

Que faire si vous approchez la limite ?

Fragmentez votre contenu. Si vous chargez des milliers de produits en dur dans le HTML, optez pour une pagination côté serveur ou un lazy loading propre. Externalisez les données volumineuses dans des fichiers JSON récupérés en AJAX après le chargement initial.

Nettoyez le code inutile : commentaires HTML verbeux, balises redondantes, scripts inline démesurés. Minifiez votre HTML en production — chaque octet compte. Déléguez le maximum de logique au JavaScript post-chargement plutôt que de tout générer côté serveur.

Quelles erreurs éviter absolument ?

Ne tentez pas de contourner artificiellement la limite en scindant une page en plusieurs fragments cachés que vous chargeriez ensuite en JS. Google détecte ces manipulations et vous risquez une dévalorisation pour cloaking ou contenu masqué.

Évitez aussi de surcharger vos pages avec du contenu uniquement destiné aux moteurs. Si personne ne lit les 12 000 mots de description produit que vous avez générés automatiquement, Google non plus ne les indexera pas — et vous aurez alourdi votre HTML pour rien.

Mesurez le poids HTML brut de vos pages stratégiques avec les DevTools ou curl
Identifiez les blocs de données inline (JSON, variables JS) qui alourdissent le document
Fragmentez les listes longues avec pagination serveur ou lazy loading client
Externalisez les ressources volumineuses (données produit, configurateurs) en fichiers séparés
Minifiez le HTML en production et supprimez les commentaires inutiles
Testez le rendu dans Google Search Console pour vérifier que tout le contenu est bien indexé
Surveillez les logs serveur pour détecter des crawls incomplets (codes 206, interruptions réseau)

Cette limite de 15 Mo ne devrait inquiéter que les sites aux architectures atypiques ou mal optimisées. Pour la majorité des projets, un audit technique révélera d'autres goulots d'étranglement bien avant qu'on atteigne ce plafond. Si votre HTML pèse plusieurs mégaoctets, le problème dépasse le SEO : c'est toute l'expérience utilisateur qui en pâtit. Ces optimisations techniques — mesure précise, refonte d'architecture, externalisation des données — demandent une expertise pointue et un diagnostic approfondi. Si vous identifiez un risque de dépassement ou souhaitez restructurer votre génération HTML, l'accompagnement d'une agence SEO spécialisée peut vous faire gagner un temps précieux et éviter des erreurs coûteuses.

❓ Questions frequentes

Les 15 Mo incluent-ils le JavaScript et le CSS inline ?

Oui, tout ce qui est embarqué dans le document HTML source compte : scripts inline, styles CSS dans des balises <style>, données JSON dans des <script type="application/ld+json">. En revanche, les fichiers externes chargés via <link> ou <script src> ne sont pas comptabilisés.

Que se passe-t-il si ma page dépasse 15 Mo ?

Googlebot arrête le téléchargement après 15 Mo et indexe uniquement le contenu qu'il a pu récupérer. Le reste est ignoré. Aucune pénalité n'est appliquée, mais vous perdez de la visibilité sur le contenu situé après la coupure.

Cette limite s'applique-t-elle au rendu JavaScript ?

La déclaration officielle ne le précise pas. La limite porte sur le HTML initial téléchargé, mais on ignore si une contrainte similaire existe pour le DOM après exécution du JavaScript. Point à clarifier.

Mon site e-commerce avec 500 produits par page est-il concerné ?

Probablement pas si vous utilisez une génération HTML classique. Une fiche produit standard pèse entre 5 et 20 Ko. Même avec 500 produits, vous restez sous les 10 Mo. Mais si vous embarquez des données structurées volumineuses ou du JSON inline, vérifiez.

Comment mesurer précisément le poids HTML de mes pages ?

Ouvrez les DevTools Chrome, onglet Network, rechargez la page, filtrez sur "Doc" et regardez la colonne Size. Vous pouvez aussi utiliser curl -s URL | wc -c en ligne de commande pour obtenir la taille exacte en octets.

🏷 Sujets associes

crawl Googlebot limite HTML indexation architecture web performance DOM crawl budget

Anciennete & Historique Crawl & Indexation

🎥 De la même vidéo 13

Autres enseignements SEO extraits de cette même vidéo Google Search Central · publiée le 28/09/2022

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Bonnes pratiques pour les feeds de la fonctionnali...

Structured data pros and cons pour les avis...

« Retour aux resultats