Les appels AJAX consomment-ils vraiment du budget de crawl ou pas ?

Declaration officielle

Lorsqu'un site utilise des appels AJAX pour charger du contenu, ces ressources peuvent être indexées, mais ne nuisent pas au budget de crawl. Utilisez les en-têtes HTTP X-Robots-Tag pour éviter leur indexation, sans affecter le rendu de la page principale.

42:45

🎥 Vidéo source

Extrait d'une vidéo Google Search Central

⏱ 58:00 💬 EN 📅 28/04/2020 ✂ 12 déclarations

Voir sur YouTube (42:45) →

✂ Autres déclarations de cette vidéo 11 ▾

2:08 Faut-il vraiment bloquer les paramètres de tracking pour Googlebot via cloaking ?
5:50 Les URLs non-canoniques dans les liens internes tuent-elles vraiment le PageRank ?
6:01 Vos liens internes sabotent-ils le choix de la canonique par Google ?
16:22 Faut-il bloquer les paramètres d'URL dans robots.txt pour économiser son budget de crawl ?
18:03 Googlebot peut-il vraiment exécuter vos requêtes AJAX et indexer le contenu chargé en JavaScript ?
21:16 Les sitelinks search box sont-ils vraiment sous contrôle du SEO ?
21:50 Le balisage FAQ garantit-il vraiment un affichage dans les résultats de recherche Google ?
22:23 Googlebot soumet-il vos formulaires et faut-il s'en inquiéter ?
24:06 Faut-il vraiment rediriger tous ses ccTLDs vers un domaine unique ?
26:08 Faut-il vraiment passer d'un .com à un .ca pour cibler uniquement le Canada ?
51:44 Faut-il vraiment se méfier de l'attribut noreferrer sur vos liens ?

Ce qu'il faut comprendre

Pourquoi cette distinction entre indexation et budget de crawl ?

Google distingue deux processus : le crawl (exploration des URL) et l'indexation (enregistrement du contenu). Les appels AJAX déclenchent souvent des requêtes vers des endpoints JSON ou XML qui retournent des données brutes.

Ces endpoints peuvent finir indexés si Googlebot les découvre et qu'aucune directive ne l'en empêche. Mais Martin Splitt précise qu'ils ne grèvent pas le budget de crawl — ce qui sous-entend que Google les traite différemment des pages HTML classiques.

Comment bloquer l'indexation sans casser le rendu ?

L'en-tête X-Robots-Tag s'applique au niveau HTTP, avant même que le navigateur ou Googlebot ne parse le contenu. Tu peux donc renvoyer X-Robots-Tag: noindex sur tes endpoints AJAX sans toucher au code JavaScript.

La page principale continue de consommer ces ressources pour son rendu côté client, mais Google n'indexe pas le fichier JSON en tant que tel. C'est propre, transparent, et ça évite de polluer l'index avec des fragments de données hors contexte.

Quelle différence avec un robots.txt ou un meta robots ?

Le robots.txt bloque le crawl — donc Google ne récupère jamais la ressource, ce qui peut empêcher le rendu JavaScript de fonctionner. Le meta robots nécessite que la ressource soit du HTML, ce qui n'est pas le cas d'un endpoint JSON.

Le X-Robots-Tag laisse passer le crawl pour le rendu, mais stoppe l'indexation. C'est exactement ce qu'il faut pour des appels AJAX : Google télécharge, exécute, mais n'archive pas.

Les ressources AJAX peuvent être indexées si aucune directive ne l'empêche
Elles ne consomment pas de budget de crawl selon Google
L'en-tête X-Robots-Tag bloque l'indexation sans affecter le rendu
Le robots.txt bloque le crawl, donc casse le JavaScript — à éviter
Le meta robots ne fonctionne que sur du HTML, pas sur du JSON

Avis d'un expert SEO

Cette affirmation sur le budget de crawl est-elle vérifiable ?

Google ne publie jamais de métriques précises sur le budget de crawl — ni quotas, ni compteurs. Affirmer que les appels AJAX « ne nuisent pas » au budget relève donc de la déclaration non falsifiable [A vérifier].

Sur les sites à forte volumétrie (e-commerce, agrégateurs), on observe que multiplier les endpoints AJAX peut ralentir l'exploration globale. Difficile de dire si c'est un effet de bord (latence serveur, timeout JS) ou si ces ressources consomment bel et bien du crawl malgré la déclaration officielle.

Le X-Robots-Tag suffit-il toujours pour éviter l'indexation ?

Oui, à condition que ton serveur renvoie correctement l'en-tête sur chaque réponse HTTP. Si tu passes par un CDN ou un reverse proxy mal configuré, l'en-tête peut sauter — et tes endpoints finissent indexés.

Autre piège : si ton endpoint renvoie du HTML au lieu de JSON (mauvaise route, erreur de dev), le X-Robots-Tag reste valide mais tu te retrouves avec des pages fantômes dans l'index. Vérifie toujours le Content-Type en parallèle.

Faut-il systématiquement bloquer l'indexation des endpoints AJAX ?

Pas toujours. Si ton endpoint retourne du contenu structuré utile (ex : une API publique, des données product schema), l'indexer peut avoir du sens — surtout si tu veux apparaître dans des recherches spécifiques.

Mais dans 90 % des cas, indexer un fichier JSON brut est contre-productif : aucun contexte sémantique, expérience utilisateur nulle, et pollution de l'index. Soyons honnêtes : si tu ne sais pas pourquoi tu voudrais indexer un endpoint, bloque-le par défaut.

Attention : Sur les architectures headless ou SSR hybrides, certains endpoints AJAX servent à la fois le rendu client et le pré-rendu serveur. Bloquer leur indexation peut créer des incohérences entre ce que voit Googlebot côté serveur et côté client. Teste en Search Console avant de déployer.

Impact pratique et recommandations

Comment détecter les endpoints AJAX indexés par erreur ?

Utilise la commande site:tondomaine.com filetype:json dans Google (ou filetype:xml pour les endpoints XML). Tu verras immédiatement si des fichiers de données sont indexés.

En complément, inspecte les logs serveur pour repérer les requêtes Googlebot vers des routes /api/, /ajax/, /data/. Si ces routes n'ont pas vocation à être publiques, vérifie qu'elles renvoient bien le X-Robots-Tag.

Quelle est la bonne configuration serveur pour bloquer l'indexation ?

Sur Apache, ajoute dans ton .htaccess ou dans la config du vhost :
<FilesMatch "\.(json|xml)$"> Header set X-Robots-Tag "noindex" </FilesMatch>

Sur Nginx, dans le bloc location concerné :
location ~* \.(json|xml)$ { add_header X-Robots-Tag "noindex"; }

Sur les frameworks modernes (Next.js, Nuxt, etc.), configure l'en-tête directement dans les middlewares API pour qu'il soit renvoyé à chaque réponse, quel que soit le statut HTTP.

Quelles erreurs éviter absolument ?

Ne bloque jamais les endpoints AJAX dans le robots.txt si ton JavaScript en a besoin pour le rendu. Google crawlera la page, tentera d'exécuter le JS, échouera à récupérer les données, et te laissera avec un rendu incomplet.

Évite aussi de mélanger X-Robots-Tag: noindex et X-Robots-Tag: nofollow sur la même ressource sans raison claire. Le nofollow n'a de sens que si ton JSON contient des liens — ce qui est rare. Un noindex seul suffit dans 99 % des cas.

Audite ton site avec site:tondomaine.com filetype:json pour détecter les fuites d'indexation
Implémente le X-Robots-Tag sur tous les endpoints AJAX qui ne doivent pas être indexés
Vérifie que l'en-tête est bien renvoyé (curl -I ou DevTools Network)
Ne bloque jamais ces ressources dans robots.txt si le JS les consomme
Teste le rendu dans Search Console après modification pour éviter les régressions
Documente la config dans ton runbook pour que l'équipe dev ne la casse pas lors d'un refacto

L'indexation des appels AJAX est un angle mort fréquent en SEO technique. Le X-Robots-Tag règle le problème proprement, sans casser le rendu côté client. Reste que sur des architectures complexes (SPA, SSR hybride, API gateway), ces configurations peuvent vite devenir fragiles — surtout si plusieurs équipes touchent au code. Si ton setup technique est déjà tendu ou si tu manques de ressources pour auditer finement chaque endpoint, faire appel à une agence SEO spécialisée peut t'éviter des mois de debugging et des pertes de positions sur des pages stratégiques.

❓ Questions frequentes

Est-ce que bloquer l'indexation des endpoints AJAX peut nuire au référencement de la page principale ?

Non, si tu utilises le X-Robots-Tag. La ressource reste crawlable pour le rendu JavaScript, mais n'est pas indexée en tant que page distincte. Le contenu final affiché sur la page principale reste indexable normalement.

Faut-il aussi bloquer les endpoints AJAX en HTTPS si le site est en HTTP ?

Si ton site sert du contenu mixte (HTTP/HTTPS), applique la même règle sur les deux protocoles. Googlebot peut découvrir les endpoints via les deux schémas — mieux vaut unifier la config.

Le X-Robots-Tag fonctionne-t-il sur tous les types de fichiers retournés par AJAX ?

Oui, il s'applique à n'importe quel type MIME : JSON, XML, HTML, texte brut, images. L'en-tête HTTP est interprété avant le parsing du contenu.

Google peut-il quand même indexer un endpoint si le X-Robots-Tag est mal formaté ?

Oui. Si l'en-tête contient une faute de syntaxe ou est renvoyé après une redirection non suivie, Google peut ignorer la directive et indexer la ressource. Vérifie toujours avec curl -I.

Les autres moteurs de recherche respectent-ils le X-Robots-Tag sur les endpoints AJAX ?

Bing et Yandex supportent X-Robots-Tag, mais leur capacité à exécuter du JavaScript reste en retrait par rapport à Google. Si ton contenu dépend d'AJAX, le rendu peut être incomplet sur ces moteurs même avec la bonne config.

🎥 De la même vidéo 11

Autres enseignements SEO extraits de cette même vidéo Google Search Central · durée 58 min · publiée le 28/04/2020

🎥 Voir la vidéo complète sur YouTube →