Comment vérifier qu'un crawler est réellement Googlebot et bloquer les imposteurs ?

Quiz SEO Express

Testez vos connaissances SEO en 3 questions

Moins de 30 secondes. Decouvrez ce que vous savez vraiment sur le referencement Google.

🕒 ~30s 🎯 3 questions 📚 SEO Google

Declaration officielle

Pour vérifier si une IP est un crawler Google, faites un reverse DNS lookup de l'adresse IP pour obtenir le hostname, puis vérifiez le hostname pour confirmer l'adresse IP. Vous pouvez aussi utiliser les services WHOIS en ligne. Certains scrapers utilisent le user agent Googlebot pour tromper les sites, il est acceptable de les bloquer.

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

💬 EN 📅 09/08/2023 ✂ 16 déclarations

Voir sur YouTube →

✂ Autres déclarations de cette vidéo 15 ▾

📅

Declaration officielle du 9 aout 2023 (il y a 2 ans)

⚠ Une declaration plus recente existe sur ce sujet Faut-il bloquer le crawler GoogleOther dans votre fichier robots.txt ? Gary Illyes · 30 juillet 2024 Voir la declaration →

TL;DR

Google recommande de vérifier l'authenticité de Googlebot via un reverse DNS lookup : récupérez le hostname depuis l'IP, puis confirmez l'IP depuis ce hostname. Les scrapers se faisant passer pour Googlebot avec un user agent falsifié peuvent être bloqués sans risque pour votre référencement.

Ce qu'il faut comprendre

Pourquoi cette vérification est-elle nécessaire ?

De nombreux scrapers et bots malveillants usurpent l'identité de Googlebot en utilisant son user agent. L'objectif ? Contourner les règles de blocage que vous avez mises en place pour protéger votre contenu ou votre infrastructure.

Le problème, c'est que bloquer aveuglément sur la base du user agent risque de bloquer le vrai Googlebot si vous vous trompez, ou de laisser passer des imposteurs si vous ne vérifiez rien. Google fournit donc une méthode de vérification fiable basée sur le DNS.

En quoi consiste le reverse DNS lookup ?

Le principe : vous partez de l'adresse IP qui a requêté votre serveur. Vous faites un reverse DNS lookup pour obtenir le hostname associé (ex : crawl-66-249-66-1.googlebot.com). Ensuite, vous faites un DNS lookup classique sur ce hostname pour retrouver l'IP de départ.

Si l'IP correspond et que le hostname termine par googlebot.com ou google.com, c'est bien Googlebot. Sinon, c'est un imposteur que vous pouvez bloquer sans scrupule.

Quelles sont les alternatives proposées par Google ?

Google mentionne aussi les services WHOIS en ligne comme solution de vérification. Moins technique, mais moins précis aussi — le WHOIS ne vous garantit pas forcément que l'IP appartient bien à Google au moment T.

La méthode DNS reste la plus fiable et celle que tout professionnel devrait privilégier pour automatiser la vérification côté serveur.

Vérifiez l'IP via reverse DNS lookup puis DNS lookup direct
Le hostname doit se terminer par .googlebot.com ou .google.com
Les scrapers usurpant le user agent peuvent être bloqués
Les services WHOIS sont une alternative moins technique mais moins fiable

Avis d'un expert SEO

Cette méthode est-elle vraiment fiable en pratique ?

Oui, c'est la méthode officielle et la plus sûre. Le reverse DNS lookup suivi d'un lookup direct permet de valider la cohérence entre IP et hostname. Google contrôle ses plages d'IP et ses enregistrements DNS — un imposteur ne peut pas falsifier ça.

Attention toutefois : cette vérification doit être automatisée côté serveur. Faire ça manuellement à chaque requête suspecte n'a aucun sens à l'échelle. Si vous constatez des patterns d'abus, scriptez la vérification ou intégrez-la dans votre stack de sécurité (WAF, middleware, etc.).

Quelles sont les limites de cette approche ?

Première limite : la latence DNS. Un reverse lookup puis un lookup direct, ça prend du temps. Si vous devez vérifier chaque requête en temps réel, vous risquez de ralentir votre serveur. Mieux vaut mettre en place un cache ou une whitelist des IP validées.

Deuxième limite : Google ne donne aucune indication sur la fréquence de rotation de ses plages d'IP. [A vérifier] Impossible de savoir si une IP validée aujourd'hui le sera encore dans 3 mois. Prévoir un système de revalidation périodique est prudent.

Faut-il bloquer systématiquement les faux Googlebot ?

Soyons honnêtes : oui. Un bot qui usurpe l'identité de Googlebot n'a aucune raison légitime de le faire. C'est soit un scraper de contenu, soit un bot de reconnaissance pour des attaques futures, soit un concurrent qui veut aspirer vos données.

Google dit explicitement que c'est acceptable de les bloquer. Pas de risque SEO, pas d'ambiguïté. Si vous avez confirmé que l'IP est fake, bloquez-la au niveau firewall ou serveur web.

Attention : Ne bloquez jamais sur la seule base du user agent. Un crawler légitime peut avoir un user agent custom, et un imposteur peut avoir le bon user agent. La vérification DNS est impérative.

Impact pratique et recommandations

Comment mettre en place cette vérification sur votre serveur ?

Première étape : identifiez les requêtes suspectes. Consultez vos logs serveur et filtrez les user agents contenant "Googlebot". Extrayez les IP associées.

Deuxième étape : scriptez la vérification. En Bash, ça donne :

host [IP] → récupérer le hostname host [hostname] → vérifier que l'IP correspond

Si vous êtes sous Apache ou Nginx, vous pouvez intégrer cette logique via un module de vérification ou un script middleware. Pour un environnement plus complexe, envisagez un WAF configuré pour faire cette validation automatiquement.

Quelles erreurs faut-il éviter absolument ?

Erreur classique : bloquer une plage d'IP sans vérification DNS parce qu'elle génère beaucoup de trafic. Vous risquez de bloquer le vrai Googlebot et de vous faire désindexer.

Autre erreur : se fier uniquement au user agent. Un user agent est une chaîne de texte modifiable à volonté — ce n'est jamais une preuve d'identité.

Enfin, ne validez pas une IP une seule fois et ne la whitelistez pas pour l'éternité. Google peut changer ses plages d'IP sans prévenir. Revalidez périodiquement.

Que faire si vous détectez des imposteurs ?

Bloquez-les immédiatement au niveau du pare-feu ou du serveur web. Vous pouvez aussi logger ces tentatives pour analyser les patterns d'attaque et anticiper d'autres menaces.

Si le volume d'imposteurs est important, envisagez de limiter le rate limiting sur les requêtes prétendant venir de Googlebot avant validation. Ça ralentit les scrapers sans impacter le vrai crawler.

Extraire les IP des user agents "Googlebot" depuis vos logs
Automatiser le reverse DNS lookup + DNS lookup direct
Vérifier que le hostname se termine par .googlebot.com ou .google.com
Bloquer les IP qui échouent la vérification au niveau firewall ou serveur
Mettre en place un cache des IP validées pour limiter la latence
Revalider périodiquement les IP whitelistées (ex : tous les 30 jours)
Logger les tentatives d'usurpation pour analyse

La vérification par reverse DNS lookup est la seule méthode fiable pour distinguer le vrai Googlebot des imposteurs. Automatisez cette vérification côté serveur, bloquez sans hésiter les faux crawlers, et revalidez régulièrement vos whitelists. Si votre infrastructure est complexe ou que vous manquez de ressources techniques pour implémenter cette vérification proprement, faire appel à une agence SEO spécialisée peut vous faire gagner un temps précieux et éviter des erreurs coûteuses en référencement.

❓ Questions frequentes

Peut-on bloquer un crawler qui se fait passer pour Googlebot sans risque SEO ?

Oui, absolument. Google confirme explicitement que bloquer un imposteur (après vérification DNS) est acceptable et sans conséquence pour votre référencement.

Le reverse DNS lookup ralentit-il le serveur ?

Oui, chaque lookup DNS prend du temps. Il faut donc mettre en cache les IP validées et éviter de vérifier chaque requête en temps réel. Privilégiez une validation asynchrone ou un système de whitelist.

Quels hostnames indiquent que c'est bien Googlebot ?

Les hostnames doivent se terminer par .googlebot.com ou .google.com. Tout autre suffixe indique un imposteur.

Faut-il utiliser les services WHOIS pour vérifier Googlebot ?

C'est une alternative, mais moins fiable que le reverse DNS lookup. Le WHOIS ne garantit pas la cohérence IP/hostname en temps réel. La méthode DNS reste la référence.

Google change-t-il souvent ses plages d'IP ?

Google ne communique pas sur la fréquence de rotation. Mieux vaut revalider périodiquement les IP whitelistées pour éviter de laisser passer de futurs imposteurs ou de bloquer de nouvelles IP légitimes.

🏷 Sujets associes

Googlebot reverse DNS crawlers sécurité serveur user agent scrapers vérification IP logs serveur

Anciennete & Historique Crawl & Indexation IA & SEO Pagination & Structure

🎥 De la même vidéo 15

Autres enseignements SEO extraits de cette même vidéo Google Search Central · publiée le 09/08/2023

🎥 Voir la vidéo complète sur YouTube →

Declarations similaires

« Precedent

Google n'invente pas de contenu, il indexe ce que ...

Limite d'URLs dans les fichiers sitemap et sitemap...

« Retour aux resultats