Comment accélérer le crawl de votre site e-commerce sans gaspiller le budget Google ?

Declaration officielle

Pour les grands sites de commerce électronique, il est crucial d'optimiser le crawling en identifiant les URL non nécessaires ou en optimisant les paramètres d'URL pour réduire les demandes de crawl inutiles.

11:19

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 1h04 💬 EN 📅 20/07/2018 ✂ 13 déclarations

Voir sur YouTube (11:19) →

✂ Autres déclarations de cette vidéo 12 ▾

1:03 Pourquoi se focaliser sur les facteurs de classement fait-il perdre de vue l'essentiel ?
2:33 Google My Business et SEO classique : vraiment deux mondes séparés ?
4:07 Canonical et hreflang : faut-il vraiment les combiner pour gérer le contenu dupliqué multilingue ?
5:15 Les redirections 301 transfèrent-elles réellement 100% du PageRank et des signaux SEO ?
6:15 La balise canonical fonctionne-t-elle vraiment comme une redirection 301 ?
13:37 Peut-on vraiment réactiver des liens désavoués sans pénalité ?
18:36 L'indexation mobile-first modifie-t-elle vraiment les extraits visibles par tous les utilisateurs mobiles ?
26:22 HTTPS et indexation mobile : pourquoi Google traite-t-il HTTP et HTTPS comme deux sites distincts ?
27:04 Le robots.txt peut-il vraiment bloquer l'indexation de vos pages ?
30:08 Comment supprimer une section de site entière de Google en moins de 24h ?
32:12 Le désaveu de liens est-il encore utile contre les attaques SEO négatives ?
35:42 Hreflang : quelle méthode d'implémentation fonctionne vraiment pour l'international ?

Ce qu'il faut comprendre

Pourquoi Google insiste-t-il autant sur l'optimisation du crawl pour les e-commerce ?

Les sites marchands génèrent une inflation massive d'URL à travers les filtres de navigation, les tris multiples, les pages de résultats vides ou quasi-identiques. Un catalogue de 5 000 produits peut facilement engendrer 50 000 à 500 000 URL explorables selon l'architecture.

Cette prolifération pose un problème technique fondamental : Googlebot dispose d'un temps limité par site. S'il passe 80% de ses passages à explorer des variantes inutiles, les pages vraiment stratégiques (fiches produits premium, catégories principales) sont crawlées moins souvent et moins profondément.

Quelles URL sont typiquement considérées comme non nécessaires ?

Les pages de filtres combinés constituent la première source de gaspillage. Par exemple : /chaussures?couleur=rouge&taille=42&marque=nike&prix=50-100. Ces combinaisons explosent de façon exponentielle sans apporter de valeur SEO distincte.

Les tris multiples et paginations infinies créent aussi des URL redondantes. Une page triée par prix croissant vs décroissant affiche le même contenu avec une URL différente. La pagination mal gérée génère parfois des centaines de pages quasi-vides vers la fin.

Comment les paramètres d'URL influencent-ils le crawl budget ?

Chaque paramètre GET crée potentiellement une nouvelle URL que Googlebot peut découvrir et tenter d'explorer. Sans directives explicites (robots.txt, canonicals, noindex), le crawler traite chaque combinaison comme une page distincte.

L'optimisation consiste à signaler clairement quels paramètres sont significatifs (ex: category_id, product_id) et lesquels sont purement techniques (session_id, sort_order, utm_source). Google respecte généralement ces signaux mais la mise en œuvre demande précision.

Crawl budget limité : Googlebot n'explore pas indéfiniment, surtout sur sites moyens/petits
Paramètres multiplicateurs : Chaque nouveau paramètre peut multiplier par 10-100 le nombre d'URL potentielles
Impact direct sur indexation : Pages stratégiques crawlées moins fréquemment = mises à jour détectées plus tard
Signal qualité : Trop d'URL faibles peut dégrader la perception globale du site par Google
Gestion via Search Console : L'outil Paramètres d'URL existe mais Google encourage surtout robots.txt et canonicals

Avis d'un expert SEO

Cette directive reflète-t-elle vraiment les observations terrain ?

Absolument. Les audits de crawl sur sites e-commerce révèlent systématiquement que 60 à 85% des passages Googlebot se perdent dans des variantes sans valeur. Les logs serveur montrent des centaines de milliers d'URL explorées dont 90% ne génèrent jamais de trafic organique.

Le problème s'aggrave avec les facettes à choix multiples. Un site analysé récemment offrait 18 filtres combinables librement, générant théoriquement 2,5 millions d'URL possibles pour 12 000 produits réels. Googlebot passait 94% de son temps sur ces combinaisons.

Quelles nuances Google omet-il dans cette déclaration ?

La recommandation reste délibérément floue sur les seuils. À partir de combien d'URL considère-t-on qu'un site a un problème de crawl budget ? Google ne fournit aucun chiffre exploitable. [A verifier] : certains SEO affirment que sous 100 000 pages, le crawl budget n'est jamais limitant. Les données publiques Google contredisent partiellement ce mythe.

L'autre zone grise concerne les pages de filtres à fort potentiel. Bloquer systématiquement tous les filtres peut éliminer des longues traînes performantes. Certaines combinaisons rares (/chaussures-running-femme-pronation?couleur=rose) génèrent du trafic qualifié qu'on sacrifie par excès de zèle.

Attention : Google ne dit pas explicitement comment gérer les filtres à valeur SEO. La Search Console Insights reste muette sur quels paramètres conservent du potentiel versus lesquels bloquer.

Quelles contradictions observe-t-on avec les pratiques recommandées ailleurs ?

Google encourage simultanément la richesse des pages facettes pour satisfaire l'intention utilisateur et leur blocage pour préserver le crawl budget. Cette tension n'est jamais résolue clairement dans les communications officielles.

Autre incohérence : la dépréciation progressive des outils. L'outil Paramètres d'URL dans Search Console a été retiré, poussant vers robots.txt et canonicals. Pourtant, robots.txt bloque complètement le crawl (perte de PageRank interne) tandis que canonical nécessite que la page soit d'abord crawlée (gaspillage du budget). Le cercle vicieux perdure.

Impact pratique et recommandations

Quelles actions concrètes faut-il entreprendre immédiatement ?

Lance un audit des logs serveur sur 30 jours minimum pour cartographier où Googlebot passe réellement son temps. Identifie les patterns d'URL qui consomment le plus de crawl sans générer de trafic organique (GSC > Performances > filtrer par ces URL = 0 clics).

Implémente des canonicals systématiques sur toutes les pages de filtres vers la page mère non filtrée. Si la page filtrée a une valeur SEO distincte (volume de recherche identifiable), laisse-la self-canonical mais bloque les sous-combinaisons.

Comment prioriser les URL à préserver versus celles à bloquer ?

Croise trois métriques : fréquence de crawl (logs serveur), trafic organique généré (GSC dernier trimestre), et potentiel de recherche (volume Google Ads Keyword Planner). Les URL crawlées souvent mais sans trafic ni potentiel = candidats prioritaires au blocage.

Pour les sites 10 000+ produits, concentre le crawl sur les catégories principales et fiches produits. Les pages de tri, pagination au-delà de page 3-4, filtres à zéro résultat doivent passer en noindex ou robots.txt selon stratégie PageRank.

Quelles erreurs critiques éviter dans cette optimisation ?

Ne bloque jamais en robots.txt des URL qui reçoivent des backlinks. Tu perdrais le flux de PageRank qu'elles transmettent. Utilise plutôt canonical + noindex pour ces cas (crawl minimal, conservation du jus).

Évite de noindexer puis de bloquer en robots.txt la même URL. Google ne peut pas voir le noindex si le crawl est bloqué, donc la page reste indexée indéfiniment. Laisse toujours 4-6 semaines de noindex crawlable avant d'ajouter un robots.txt si vraiment nécessaire.

Ces optimisations techniques touchent à l'architecture fondamentale de votre site et à la transmission du PageRank interne. Une erreur de configuration peut dégrader massivement vos positions en quelques semaines. Si vous gérez un catalogue complexe ou si les enjeux business sont importants, l'accompagnement par une agence SEO spécialisée vous évitera des erreurs coûteuses et accélérera les gains de crawl efficace.

Analyser 30 jours de logs serveur pour identifier les gouffres de crawl budget
Installer des canonicals systématiques sur toutes les variantes de tri et filtres simples
Bloquer en robots.txt les paramètres de session, tracking, et tris redondants (via règle Allow/Disallow sur query strings)
Configurer la pagination avec rel=next/prev ou URL canonique vers page 1 selon le cas
Monitorer l'évolution du crawl dans GSC > Statistiques d'exploration après chaque modification majeure
Vérifier mensuellement que les pages stratégiques sont crawlées au moins une fois par semaine

L'optimisation du crawl budget est rarement critique pour les sites sous 5 000 pages, mais devient déterminante au-delà de 20 000 URL. L'objectif n'est pas de bloquer massivement, mais de concentrer Googlebot sur les pages qui génèrent ou peuvent générer du trafic qualifié. Logs serveur + Search Console forment le duo indispensable pour piloter cette optimisation dans la durée.

❓ Questions frequentes

Le crawl budget est-il vraiment un problème pour les petits sites e-commerce ?

Pour les sites sous 10 000 pages bien structurées, le crawl budget est rarement limitant selon Google. Le problème devient critique au-delà de 50 000 URL ou si l'architecture génère massivement des variantes inutiles.

Dois-je bloquer tous les filtres de navigation en robots.txt ?

Non. Certaines combinaisons de filtres correspondent à des requêtes réelles avec volume de recherche. Bloque uniquement les paramètres techniques et les combinaisons sans potentiel SEO identifiable.

Canonical ou noindex pour les pages de filtres redondantes ?

Canonical si la page est une simple variante d'une page mère pertinente. Noindex si la page n'a aucune valeur SEO mais doit rester accessible utilisateurs. Robots.txt seulement si tu veux bloquer complètement le crawl ET que la page n'a pas de backlinks.

Comment savoir si mon site souffre d'un problème de crawl budget ?

Analyse tes logs serveur : si Googlebot explore majoritairement des URL qui ne génèrent aucun trafic organique, et si tes pages stratégiques sont crawlées moins d'une fois par semaine, tu as un problème d'optimisation du crawl.

L'outil Paramètres d'URL de Search Console est-il toujours efficace ?

Google l'a déprécié et encourage désormais l'usage de robots.txt, canonicals et balises meta. Les configurations existantes restent actives mais aucune nouvelle configuration n'est possible depuis 2022.

🎥 De la même vidéo 12

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 1h04 · publiée le 20/07/2018

🎥 Voir la vidéo complète sur YouTube →