Pourquoi Google n'indexe-t-il pas toutes vos pages malgré un crawl actif ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Quand Search Console montre beaucoup de pages 'Discovered - currently not indexed' ou 'Crawled - currently not indexed', c'est souvent parce que les algorithmes de Google ne sont pas convaincus par la qualité globale du site. Il faut améliorer significativement la qualité d'ensemble, pas seulement ajouter du contenu.

11:31

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 54:50 💬 EN 📅 15/05/2020 ✂ 23 déclarations

Voir sur YouTube (11:31) →

✂ Autres déclarations de cette vidéo 22 ▾

📅

Declaration officielle du 15 mai 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet Le programme Google Product Experts est-il vraiment en danger pour votre stratég... John Mueller · 1 octobre 2024 Voir la declaration →

TL;DR

Google affirme que les statuts 'Discovered - currently not indexed' et 'Crawled - currently not indexed' en masse révèlent un problème de qualité globale du site, pas juste un déficit de contenu. L'algorithme juge l'ensemble de votre écosystème avant de décider d'indexer. Concrètement : ajouter 50 nouvelles pages ne résoudra rien si la base est bancale — il faut d'abord assainir, élaguer, renforcer la qualité perçue.

Ce qu'il faut comprendre

Que signifient exactement ces deux statuts dans Search Console ?

'Discovered - currently not indexed' indique que Googlebot a repéré l'URL (via sitemap, lien interne, lien externe) mais a choisi de ne pas la crawler immédiatement ou de ne pas l'indexer après un crawl superficiel. 'Crawled - currently not indexed' va plus loin : Google a bien visité la page, analysé son contenu, mais décide de ne pas l'intégrer à l'index.

Ces deux statuts ne sont pas des bugs techniques. Ils traduisent une décision algorithmique délibérée. Google estime que ces pages n'apportent pas assez de valeur pour mériter une place dans l'index — soit parce qu'elles dupliquent du contenu existant, soit parce que le site dans son ensemble manque de signaux de qualité ou d'autorité.

Pourquoi Google parle-t-il de 'qualité globale du site' ?

L'indexation n'est pas binaire. Google évalue chaque site selon un budget de crawl et un seuil de qualité implicite. Si votre domaine a mauvaise réputation (thin content, spam historique, liens toxiques, UX catastrophique), l'algorithme applique un filtre de sévérité accrue sur toutes les nouvelles URLs.

Vous pouvez publier du contenu correct, voire bon — si le reste du site est médiocre, Google reste frileux. C'est un effet de halo inversé : la qualité perçue du site contamine la perception de chaque page individuelle. Mueller insiste sur ce point : le problème n'est pas forcément la page non indexée elle-même, mais l'environnement dans lequel elle baigne.

En quoi cela diffère-t-il d'un simple problème de crawl budget ?

Le crawl budget limite le nombre de pages que Googlebot visite par jour. Ici, le souci est différent : même quand Google crawle, il refuse d'indexer. C'est un filtre qualitatif post-crawl, pas un blocage en amont.

Un site avec 10 000 pages peut voir 8 000 URLs crawlées régulièrement mais seulement 3 000 indexées. Le crawl budget n'est pas saturé — c'est la qualité qui coince. Google a décidé que ces 5 000 pages ne méritent pas l'index, même après les avoir visitées.

Discovered not indexed : Google hésite, évalue, reporte la décision d'indexation
Crawled not indexed : Google a tranché après analyse — la page est jugée insuffisante
Signal de qualité globale : un volume massif de ces statuts révèle un problème structurel du site, pas ponctuel
Pas de solution rapide : ajouter du contenu ou forcer le crawl ne change rien si la base qualité est défaillante
Action requise : audit complet, élagage, refonte partielle — pas juste optimisation à la marge

Avis d'un expert SEO

Cette déclaration est-elle cohérente avec les observations terrain ?

Oui, elle corrobore ce qu'on observe depuis des années. Les sites qui accumulent des milliers de pages 'Discovered not indexed' ont souvent un historique chargé : migrations mal gérées, content farms rachetées, explosion de facettes e-commerce sans contrôle. Google ne dit pas explicitement comment il mesure cette 'qualité globale', mais l'expérience montre que des signaux comme le taux de rebond agrégé, la vitesse de chargement moyenne, la densité de liens internes cassés, ou la proportion de pages zero-trafic entrent en jeu.

Ce que Mueller ne précise pas — et c'est dommage — c'est le seuil. À partir de combien de pages non indexées faut-il s'inquiéter ? 10 % du total ? 50 % ? Ça dépend du contexte, évidemment, mais l'absence de chiffre rend le diagnostic difficile. [A vérifier] sur des sites neufs ou en forte croissance, un volume élevé de 'Discovered' peut être temporaire, le temps que Google évalue.

Quelles nuances faut-il apporter à cette affirmation ?

Tous les sites avec beaucoup de pages non indexées ne sont pas forcément de mauvaise qualité. Un média avec des milliers d'archives anciennes, un site e-commerce avec des produits saisonniers en rupture permanente, une plateforme UGC avec modération — dans ces cas, Google peut légitimement ignorer des pans entiers sans que cela traduise un problème de fond.

Le piège, c'est de généraliser. Si vous avez 5 000 pages 'Crawled not indexed' sur un blog de 6 000 articles, là oui, c'est un signal d'alarme. Si c'est sur un site de 200 000 fiches produits dont 80 % sont obsolètes, c'est presque logique. La clé : analyser le ratio indexé/total et la nature des pages concernées avant de paniquer.

Dans quels cas cette règle ne s'applique-t-elle pas ?

Les sites très récents (moins de 6 mois, faible autorité) peuvent voir un délai d'indexation long sans que cela reflète un souci de qualité. Google prend son temps pour évaluer les nouveaux entrants, surtout dans des niches saturées. De même, un site sous pénalité manuelle ou algorithme spam verra ses pages refusées en masse, mais c'est un cas particulier — la non-indexation est une conséquence, pas un diagnostic.

Enfin, certains CMS génèrent des URLs parasites (filtres, tris, sessions) que Google crawle par erreur mais n'indexe jamais. Si ces URLs représentent 90 % de vos 'Discovered not indexed', le problème n'est pas la qualité globale mais un défaut de configuration robots.txt ou canonical. Distinguer le bruit structurel du signal qualitatif est essentiel.

Impact pratique et recommandations

Que faut-il faire concrètement si votre site accumule ces statuts ?

Première étape : auditer la qualité réelle des pages non indexées. Exportez la liste depuis Search Console, échantillonnez 50-100 URLs, et évaluez-les honnêtement. Contenu thin ? Duplication interne ? Valeur utilisateur faible ? Si la réponse est oui, ces pages méritent peut-être de ne pas être indexées — ou d'être supprimées.

Ensuite, regardez les pages indexées et performantes. Qu'ont-elles en commun ? Longueur, profondeur sémantique, maillage interne, signaux UX (temps sur page, CTR) ? Identifiez les patterns gagnants et alignez progressivement le reste du contenu sur ce standard. Ne cherchez pas à indexer plus — cherchez à mériter l'indexation.

Quelles erreurs éviter dans ce contexte ?

Ne versez pas dans l'activisme aveugle. Ajouter 200 nouveaux articles pour 'diluer' le ratio de pages non indexées ne résout rien si ces articles sont eux-mêmes médiocres. Google évalue la tendance globale, pas juste un snapshot. De même, forcer le crawl via 'Demander une indexation' en masse est inutile — Google a déjà crawlé et refusé ces pages.

Autre piège : se focaliser uniquement sur les pages non indexées en ignorant celles qui le sont mais génèrent zéro trafic. Ces dernières plombent aussi votre score de qualité global. Un site avec 10 000 pages indexées dont 7 000 à zéro visite mensuelle envoie un signal négatif fort. Élaguer, fusionner, rediriger ces pages zombies améliore souvent la perception algorithmique du site entier.

Comment vérifier que votre stratégie produit des résultats ?

Suivez l'évolution du ratio pages indexées / pages soumises sur 3-6 mois après vos actions. Si vous élaguez 2 000 pages faibles et en améliorez 500, vous devriez voir le nombre de 'Crawled not indexed' baisser progressivement. Attention : c'est lent. Google réévalue la qualité globale d'un site sur plusieurs cycles de crawl.

Parallèlement, surveillez les métriques de crawl (fréquence, volume) et les signaux UX agrégés (Core Web Vitals, taux de rebond moyen). Une amélioration de ces indicateurs renforce la confiance algorithmique et favorise l'indexation de nouvelles pages. Si rien ne bouge après 6 mois d'efforts soutenus, il faut creuser plus profond — liens toxiques, pénalité silencieuse, problème technique structurel.

Exporter et analyser les URLs 'Discovered' et 'Crawled not indexed' depuis Search Console
Identifier les pages à faible valeur ajoutée et décider : améliorer, fusionner, supprimer ou noindex
Auditer les pages indexées à zéro trafic et traiter ces 'zombies' pour nettoyer l'index
Renforcer le maillage interne vers les pages stratégiques pour redistribuer l'autorité
Améliorer les signaux UX globaux (vitesse, mobile, engagement) pour rehausser la perception qualité
Suivre l'évolution du ratio indexation sur 6 mois minimum avant de conclure à l'efficacité des actions

L'indexation sélective de Google reflète un jugement qualitatif global sur votre site. Plutôt que de chercher à indexer plus, visez à mériter l'indexation en élevant le standard de l'ensemble. Cela passe par un audit rigoureux, un élagage courageux et une refonte partielle des contenus faibles. Ces chantiers sont souvent lourds et techniques — si vous manquez de ressources internes ou d'expertise pour piloter cette transformation, faire appel à une agence SEO spécialisée peut accélérer le diagnostic et garantir une mise en œuvre cohérente sur la durée.

❓ Questions frequentes

Combien de pages 'Discovered not indexed' est considéré comme anormal ?

Il n'y a pas de seuil absolu. Un ratio supérieur à 30-40 % de vos URLs soumises peut signaler un problème si ces pages ont vocation à être indexées. Contexte et nature des pages comptent autant que le chiffre brut.

Faut-il supprimer les pages 'Crawled not indexed' pour améliorer la qualité globale ?

Pas systématiquement. Analysez d'abord leur valeur réelle. Si elles sont thin, dupliquées ou sans intérêt utilisateur, oui, supprimez-les ou passez-les en noindex. Si elles ont un potentiel, améliorez-les plutôt que de les effacer.

Est-ce que forcer l'indexation via 'Demander une indexation' fonctionne dans ce cas ?

Non. Google a déjà crawlé et refusé ces pages. Redemander l'indexation ne changera rien si le problème de qualité globale persiste. Il faut d'abord corriger la cause profonde.

Un site neuf avec peu de backlinks peut-il avoir beaucoup de pages non indexées sans que ce soit grave ?

Oui. Google prend du temps pour indexer les nouveaux sites à faible autorité. Si le contenu est solide, l'indexation viendra progressivement. Patience et acquisition de signaux de confiance (liens, trafic) accélèrent le processus.

Comment distinguer un problème de crawl budget d'un problème de qualité globale ?

Si Google crawle peu vos pages, c'est un souci de crawl budget. Si Google crawle beaucoup mais n'indexe pas, c'est un filtre qualité post-crawl. Vérifiez les stats de crawl dans Search Console pour trancher.

🏷 Sujets associes

indexation qualité site crawl budget Search Console contenu thin algorithme Google audit SEO pages zombies

Algorithmes Anciennete & Historique Contenu Crawl & Indexation Discover & Actualites IA & SEO Search Console

🎥 De la même vidéo 22

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 54 min · publiée le 15/05/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Erreurs serveur temporaires (500, 503) : gestion a...

Erreurs 404 temporaires lors d'une migration : imp...

« Retour aux resultats