Questions fréquentes

Tout ce qu'il faut savoir sur l'Audit Agent Ready, les agents IA, et comment préparer votre boutique e-commerce.

Qu'est-ce qu'un site Agent-Ready ?

Un site Agent-Ready est consommable par les agents IA (ChatGPT, Claude, Perplexity, Gemini) et les grands modèles de langage. Concrètement, il expose ses produits via Schema.org, son catalogue via un sitemap, ses APIs via OpenAPI/MCP, et il n'empêche pas les User-Agents IA d'accéder à ses pages. Le score Agent Ready mesure cette préparation sur 18 protocoles et 6 catégories (Discoverability, Content, Bot access, API/MCP, Schema.org, Agentic commerce).

Pourquoi mon site est-il bloqué pour les agents IA ?

Les causes sont multiples et souvent cumulées. Cinq familles principales :

A. Anti-bot explicite

Cloudflare Bot Fight Mode activé par défaut - bloque GPTBot, ClaudeBot, PerplexityBot sans que vous le sachiez.
WAF anti-scraping pro (DataDome, Akamai Bot Manager, Imperva, Kasada, PerimeterX) destinés aux concurrents qui bloquent aussi les IA par effet de bord.
Cloudflare AI Crawl Control en mode bloquant (introduit fin 2024, parfois activé par défaut sur certains plans).
Plugins sécurité WordPress - Wordfence, Sucuri Plugin, iThemes Security blacklistent par défaut les User-Agents bots.
AWS WAF / mod_security avec règles managées génériques anti-bot (Apache mod_security, Nginx, NetScaler, F5 Big-IP).

B. Configuration déclarative

robots.txt explicite avec des règles Disallow sur les User-Agents IA - souvent copié d'un template défensif.
meta robots / X-Robots-Tag noindex - n'empêche pas le crawl mais empêche l'indexation, donc le contenu reste invisible aux IA qui se basent sur les index.

C. Ressources serveur saturées

Hosting mutualisé bas de gamme - PHP-FPM workers limités, pool DB saturé, mémoire PHP plafonnée. Le bot fait 3-5 requêtes en parallèle, le serveur retourne 502/504/timeouts.
Mode « Under Attack » Cloudflare déclenché par un pic de trafic IA - tout le monde se retrouve sur un challenge interactive.
Rate-limiting trop strict sur les IPs des datacenters d'OpenAI, Anthropic ou Perplexity - le serveur retourne 429 Too Many Requests.
TTFB > 5-10s - les crawlers IA ont des timeouts agressifs (souvent 5-10s côté lecture). Au-delà, ils abandonnent.
Redirects en cascade - 301 → 301 → 301 → 200, certains crawlers abandonnent au-delà de 5 hops successifs.
Shadowban silencieux - le serveur retourne 200 OK mais avec un HTML stripped/vide. Plus pernicieux qu'un 403 car aucune erreur ne signale le problème.

D. Rendu / contenu

Site full-JavaScript sans SSR - le bot reçoit un HTML vide (squelette React/Vue) car la plupart des crawlers IA n'exécutent pas le JavaScript ou abandonnent avant l'hydratation.
Cookie walls RGPD bloquants - certains consentement managers retournent un écran d'acceptation avant d'exposer le contenu, et le bot ne voit donc que ce mur.
Pages > 5MB ou trop riches en assets - certains crawlers limitent la taille téléchargée et tronquent le contenu.

E. Réseau / fingerprinting

Fingerprinting headless côté client (FingerprintJS, Cloudflare Turnstile, Google reCAPTCHA Enterprise) qui détecte les bots même quand ils déclarent leur identité.
Geo-blocking ou IP reputation - certains sites bloquent les IPs cloud (AWS, GCP, Azure) ou les IPs hors UE, ce qui exclut beaucoup de crawlers IA hébergés en datacenter.
Tor exit nodes / proxies anonymisés - certains bots IA passent par des proxies pour masquer leur identité, bannis automatiquement par les blacklists IP.

Comment savoir si je bloque les agents IA ?

Le scanner d'audit.node6.ai détecte automatiquement les blocages. Vous pouvez aussi tester manuellement avec un User-Agent spoofé : curl -A "Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot)" https://votresite.com. Si le retour est HTTP 403 ou 429, c'est que vous bloquez. Vérifiez aussi votre dashboard Cloudflare → Security → Bots, et votre robots.txt.

Comment débloquer mon site ?

Trois actions principales selon votre cas :

Cloudflare - Dashboard → Security → Bots → désactiver Bot Fight Mode OU créer une règle WAF Skip pour les User-Agents IA légitimes (GPTBot, ClaudeBot, PerplexityBot, Google-Extended).
DataDome / Akamai - whitelister les User-Agents IA dans la console admin.
robots.txt - retirer les règles Disallow ciblant les bots IA, ou ajouter des règles Allow explicites.

L'Audit Pro Node6 vous fournit le détail des fixes à appliquer pour votre stack spécifique.

Pourquoi devrais-je laisser passer les agents IA ?

ChatGPT compte 600M+ utilisateurs hebdomadaires (octobre 2025), Perplexity 30M+, Claude 20M+. Quand un utilisateur demande à un agent IA "quels sneakers acheter pour moins de 100€ ?", l'agent va citer les boutiques qu'il peut lire - et ignorer celles qui le bloquent. Bloquer les agents IA, c'est se rendre invisible à un canal d'acquisition en très forte croissance, équivalent au SEO Google de 2002.

Que mesure exactement le score Agent Ready ?

Le score (sur 100) agrège 6 catégories pondérées :

Discoverability - robots.txt, sitemap, link headers, markdown negotiation
Content - JSON-LD pages, microdata, OG tags
Bot access - règles AI bots, Web Bot Auth, Content Signals (RFC 9309)
API/MCP - api-catalog (RFC 9727), OAuth/OIDC, MCP Server Card, A2A Agent Card, WebMCP, Agent Skills
Schema.org - Product, Offer, AggregateRating, BreadcrumbList, Organization
Agentic commerce - x402 (paiement HTTP), MPP (Machine Payment), UCP (Universal Commerce), ACP (Agentic Commerce Protocol)

Le scanner est-il payant ?

Non, l'audit gratuit (sur audit.node6.ai) est entièrement libre d'accès. Vous obtenez le score, les 6 catégories, 5 quick wins prioritaires avec extraits de code, et 19 sub-checks détaillés. L'Audit Pro (sur devis) ajoute le plan d'implémentation pas-à-pas, la roadmap 90 jours, et un call de 1h. Voir /audit-pro.

Combien de temps prend un scan ?

Environ 30 à 50 secondes en moyenne. Le scanner exécute en parallèle : récupération du HTML rendu via Playwright, audit Cloudflare des 17 protocoles agentic, validation Schema.org JSON-LD sur les pages produit, test des User-Agents IA, génération des quick wins par Claude API. Sur les sites lents ou protégés par CDN antibot, le scan peut atteindre 55 secondes max.

Mes données sont-elles partagées ?

Non. Hébergement intégral en Union européenne (Vercel Paris, Hostinger France, Supabase self-hosted). Aucune revente, aucun cookie marketing, aucun pixel tiers. Voir la politique de confidentialité pour le détail. RGPD compliant.

Puis-je refaire un scan plus tard ?

Oui, autant de fois que vous voulez (dans la limite anti-abuse de 3 scans/heure et 10/jour par IP). Les résultats sont mis en cache 7 jours pour la même URL afin d'éviter de surcharger les sites scannés. Pour invalider le cache et forcer un re-scan, attendez 7 jours ou contactez contact@node6.ai.

Pourquoi certains sites du Top 100 sont-ils bloqués sur /benchmarks ?

Les benchmarks publics (page /benchmarks) reflètent la réalité actuelle du marché : plus d'un site sur deux du Top 100 e-commerce français bloque les agents IA, souvent par effet de bord d'une protection anti-scraping mise en place pour d'autres raisons (anti-fraude, comparateurs prix). La plupart des éditeurs ne sont pas conscients de ce blocage. Le scanner Node6 sert précisément à révéler ces blocages invisibles.

Comment contacter Node6 ?

Email : contact@node6.ai. Pour discuter d'un Audit Pro, réservez un call 30 min sur calendly.com/node6/ai-solutions. Site corporate : www.node6.ai.