Comment vérifier que Googlebot crawle vraiment votre site ?

Quiz SEO Express

Testez vos connaissances SEO en 5 questions

Moins d'une minute. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~1 min 🎯 5 questions

Declaration officielle

Les logs serveur doivent être pris avec précaution car de nombreux faux bots prétendent être Googlebot. Il faut vérifier que le crawl provient bien d'une adresse IP de Google, car n'importe qui peut déclarer être Googlebot.

2:05

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 46:02 💬 EN 📅 25/11/2020 ✂ 29 déclarations

Voir sur YouTube (2:05) →

✂ Autres déclarations de cette vidéo 28 ▾

📅

Declaration officielle du 25 novembre 2020 (il y a 5 ans)

⚠ Une declaration plus recente existe sur ce sujet GoogleBot crawle-t-il vraiment des URLs que votre site n'a jamais générées ? Google · 27 mars 2025 Voir la declaration →

TL;DR

Google rappelle que n'importe qui peut usurper l'identité de Googlebot dans les logs serveur. La seule méthode fiable consiste à vérifier l'adresse IP d'origine via un reverse DNS lookup puis une résolution DNS. Cette pratique permet d'éviter de fausser vos analyses de crawl et de bloquer de potentielles attaques de scraping déguisées.

Ce qu'il faut comprendre

Pourquoi les logs serveur peuvent-ils induire en erreur ?

Les logs serveur enregistrent toutes les requêtes HTTP reçues, y compris le User-Agent déclaré par le client. Le problème ? Ce User-Agent est une simple chaîne de caractères que n'importe quel bot peut modifier à sa guise.

Un scraper malveillant peut parfaitement se déclarer comme Mozilla/5.0 (compatible; Googlebot/2.1) alors qu'il n'a strictement aucun lien avec Google. Vos logs montreront « Googlebot » alors qu'il s'agit d'un tiers qui aspire votre contenu ou teste vos pages pour des raisons qui lui sont propres.

Quelle est la méthode recommandée par Google pour authentifier Googlebot ?

Google documente une procédure en deux étapes pour valider l'authenticité d'un crawl. D'abord, effectuer un reverse DNS lookup sur l'IP source pour obtenir le hostname. Ensuite, résoudre ce hostname en IP et vérifier qu'on retombe bien sur l'IP initiale.

Seules les IP appartenant aux plages googlebot.com et google.com sont légitimes. Cette double vérification garantit qu'un attaquant ne peut pas simplement créer un faux enregistrement DNS pointant vers son IP — il faudrait qu'il contrôle les DNS de Google, ce qui est évidemment impossible.

Quels risques court-on en faisant confiance aveuglément aux User-Agents ?

Trois risques principaux se dessinent. Le premier : fausser vos analyses de crawl budget. Si vous comptabilisez des centaines de hits « Googlebot » qui n'en sont pas, vous surestimérez la fréquence réelle de passage du bot et prendrez de mauvaises décisions d'optimisation.

Le deuxième : exposer du contenu sensible. Certains sites délivrent des versions différentes à Googlebot (par exemple, du contenu derrière un paywall rendu accessible pour l'indexation). Un faux bot récupère alors ce contenu sans restriction.

Le troisième : subir une charge serveur non anticipée. Un scraper agressif déguisé en Googlebot peut générer des milliers de requêtes par heure, dégrader vos performances et même provoquer des timeouts ou des downtimes si votre infra n'est pas dimensionnée pour absorber ce trafic parasite.

Le User-Agent seul ne garantit rien — il est trivial à falsifier
La vérification IP via reverse DNS + forward DNS est la seule méthode fiable
Les faux bots peuvent fausser vos métriques de crawl et exposer du contenu restreint
Google documente cette procédure dans sa documentation officielle depuis des années
Des outils comme robots.txt tester ou des scripts serveur peuvent automatiser cette vérification

Avis d'un expert SEO

Cette recommandation est-elle cohérente avec les pratiques terrain observées ?

Absolument, et c'est même un basique souvent négligé. En audit, je vois régulièrement des clients qui analysent leurs logs sans aucune validation d'IP — et découvrent avec surprise que 40 % des hits « Googlebot » proviennent de data centers tiers, de scrapers concurrents ou de services SEO automatisés.

Google n'a jamais varié sur ce point. La documentation officielle mentionne cette procédure depuis au moins 2015, et aucune mise à jour récente n'a changé le process. C'est un conseil stable, non sujet à interprétation. Si tu ne vérifies pas les IP, tu travailles avec des données polluées.

Quelles nuances faut-il apporter à cette déclaration ?

Premier point : la vérification DNS a un coût en ressources. Sur un site recevant 100 000 hits Googlebot par jour, effectuer un reverse DNS puis un forward DNS pour chaque requête en temps réel peut ralentir le serveur. La solution pragmatique consiste à logger les IP, puis traiter les vérifications en batch asynchrone.

Deuxième nuance : Google utilise des centaines de ranges d'IP qui évoluent. Maintenir une whitelist statique est voué à l'échec — certaines IP légitimes seront bloquées, d'autres passeront. Seule la méthode DNS garantit une couverture exhaustive et à jour. [A vérifier] : certains CDN proposent des mécanismes de validation intégrés, mais leur fiabilité dépend de la fréquence de mise à jour de leurs bases IP.

Dans quels cas cette règle ne s'applique-t-elle pas pleinement ?

Si tu passes par un reverse proxy ou un CDN comme Cloudflare, l'IP source vue par ton serveur est celle du proxy, pas celle de Googlebot. Dans ce cas, il faut récupérer l'IP réelle via les headers X-Forwarded-For ou CF-Connecting-IP — et là encore, vérifier que ces headers ne sont pas eux-mêmes falsifiés.

Autre cas limite : les environnements de staging ou de dev bloqués par IP. Si Googlebot accède à ces environnements (ce qui ne devrait jamais arriver), valider son IP ne change rien au problème principal : ces environnements ne doivent tout simplement pas être crawlables. Un robots.txt disallow global ou une authentification HTTP résolvent ça en amont.

Attention : certains outils d'analyse de logs tiers (comme OnCrawl ou Botify) effectuent cette vérification automatiquement, mais tous ne le font pas. Vérifie la méthodologie de ton outil avant de faire confiance aveuglément aux segments « Googlebot » dans tes dashboards.

Impact pratique et recommandations

Que faut-il faire concrètement pour valider Googlebot dans vos logs ?

La méthode manuelle repose sur deux commandes shell classiques. Pour une IP donnée, lance host [IP] pour obtenir le hostname via reverse DNS. Puis lance host [hostname] pour vérifier que l'IP retournée correspond bien à l'IP initiale.

Exemple concret : host 66.249.66.1 retourne crawl-66-249-66-1.googlebot.com. Puis host crawl-66-249-66-1.googlebot.com retourne 66.249.66.1. Match confirmé, c'est bien Googlebot. Si le hostname ne finit pas par .googlebot.com ou .google.com, c'est un imposteur.

Quelles erreurs éviter lors de l'implémentation ?

Première erreur classique : bloquer des IP légitimes parce que le reverse DNS timeout ou échoue temporairement. Si ta validation échoue, logge l'événement mais ne bloque pas la requête en dur — tu risques de couper l'accès au vrai Googlebot.

Deuxième erreur : se contenter du forward DNS sans faire le reverse. Un attaquant peut créer un enregistrement DNS pointant vers son IP et prétendre être googlebot.com — mais le reverse DNS depuis cette IP ne retournera jamais un hostname Google légitime. Les deux étapes sont indissociables.

Troisième erreur : négliger les autres bots Google. Google dispose de plusieurs User-Agents (Googlebot-Image, Googlebot-Video, Google-InspectionTool, AdsBot-Google, etc.) qui partagent les mêmes ranges d'IP. Ta validation doit couvrir tous ces crawlers, pas seulement le Googlebot classique.

Comment automatiser cette vérification à l'échelle ?

Plusieurs approches sont viables. Tu peux intégrer un script Python ou PHP qui parse tes logs Apache/Nginx, extrait les IP déclarées Googlebot, et effectue les lookups DNS en batch. Des bibliothèques comme dnspython ou gethostbyaddr simplifient l'opération.

Autre option : déléguer cette validation à ton WAF ou firewall applicatif. Certains permettent de créer des règles custom exécutant des reverse DNS en temps réel. C'est plus coûteux en ressources, mais ça bloque les faux bots avant qu'ils ne touchent ton application.

Pour les infrastructures complexes ou les sites à fort trafic, il peut être judicieux de faire appel à une agence SEO spécialisée qui dispose déjà des pipelines d'analyse de logs, des scripts de validation et de l'expertise pour interpréter les résultats sans faux positifs. Ce type de prestation évite de mobiliser vos équipes dev sur des sujets annexes tout en garantissant une vélocité d'implémentation.

Implémenter un script de validation DNS (reverse + forward) sur vos logs serveur
Vérifier que les hostnames se terminent par .googlebot.com ou .google.com
Ne jamais bloquer une requête en dur si la validation DNS échoue — logger l'événement et investiguer
Étendre la validation à tous les User-Agents Google (AdsBot, InspectionTool, etc.)
Si vous utilisez un CDN ou reverse proxy, récupérer l'IP réelle via les headers appropriés
Automatiser la vérification en batch asynchrone pour éviter la surcharge serveur

La vérification d'IP par DNS n'est pas une option — c'est un prérequis pour toute analyse de logs fiable. Sans elle, vos décisions sur le crawl budget, l'optimisation du rendering ou la priorisation de contenu reposent sur des données faussées. Investir quelques heures dans un script de validation vous fera gagner des semaines d'investigations inutiles.

❓ Questions frequentes

Peut-on se fier uniquement au User-Agent pour identifier Googlebot ?

Non. Le User-Agent est une simple chaîne de texte que n'importe quel client HTTP peut modifier librement. Seule une vérification de l'adresse IP via reverse DNS puis forward DNS garantit l'authenticité.

Quels sont les domaines légitimes pour les hostnames de Googlebot ?

Seuls les hostnames se terminant par .googlebot.com ou .google.com sont légitimes. Tout autre domaine, même ressemblant, indique un faux bot.

Cette vérification s'applique-t-elle aussi aux autres bots Google comme AdsBot ou Google-InspectionTool ?

Oui. Tous les crawlers Google utilisent les mêmes ranges d'IP et doivent passer par la même procédure de vérification DNS. Le User-Agent diffère, mais la validation IP reste identique.

Comment gérer la vérification DNS si mon site est derrière un CDN ?

Récupérez l'IP réelle du client via les headers X-Forwarded-For ou CF-Connecting-IP, puis effectuez la vérification DNS sur cette IP. Assurez-vous que ces headers ne peuvent pas être falsifiés par un attaquant.

Que faire si le reverse DNS échoue ou timeout pour une IP prétendant être Googlebot ?

Ne bloquez pas la requête immédiatement — loggez l'événement et réessayez. Un échec ponctuel peut être dû à une latence réseau. Si l'échec persiste sur plusieurs tentatives, l'IP est probablement illégitime.

🏷 Sujets associes

googlebot crawl logs serveur reverse DNS user-agent scraping authentification crawl budget

Crawl & Indexation

🎥 De la même vidéo 28

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 46 min · publiée le 25/11/2020

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Date de lancement du facteur de classement Page Ex...

Rendu JavaScript et décision de Google...

« Retour aux resultats