Visibilité IA

Comment l'IA lit
les sites web

Votre site web est la vitrine de votre entreprise. Mais l'IA ne le lit pas comme un humain. Elle ne voit pas vos belles images, ne regarde pas vos vidéos, ne navigue pas dans vos menus. Les crawlers IA lisent du texte brut, du code HTML et des données structurées. Ce qu'ils comprennent détermine si votre entreprise est citée dans les réponses IA. Ce guide explique exactement ce que les crawlers voient et ce qu'ils ignorent.

3,2x

plus cité avec des données structurées

0%

du JavaScript exécuté par GPTBot

5

crawlers IA principaux

H1-H3

les balises les plus lues par l'IA

Ce que l'IA voit sur votre site web

Les crawlers IA ne naviguent pas sur votre site comme un visiteur humain. Ils lisent le code source, pas le rendu visuel.

Le texte HTML brut

La base de ce que l'IA lit est le texte contenu dans votre HTML. Les titres (H1, H2, H3), les paragraphes, les listes, les tableaux. L'IA accorde une importance particulière aux titres : un H1 indique le sujet principal de la page, les H2 structurent les sous-sujets, les H3 détaillent. Une hiérarchie de titres claire aide l'IA à comprendre le contenu de votre page rapidement.

Les données structurées (schema markup)

Les données structurées sont le format le plus efficace pour communiquer avec l'IA. Le balisage Organisation indique à l'IA votre nom, adresse, téléphone et secteur d'activité. Le balisage LocalBusiness ajoute votre zone de chalandise, vos horaires et vos coordonnées géographiques. Le balisage FAQ fournit des paires question-réponse prêtes à être extraites. Le balisage Service détaille chaque service proposé.

Les entreprises avec des données structurées sont citées 3,2 fois plus souvent par l'IA. C'est l'investissement technique avec le meilleur retour pour la visibilité IA. Pour comprendre toutes les sources que l'IA utilise au-delà de votre site, consultez comment l'IA collecte les informations sur les entreprises.

Les balises meta

Le titre meta (title tag) et la description meta de chaque page sont lus par les crawlers et affichés dans les résultats de recherche. Un titre meta clair qui décrit précisément le contenu de la page aide l'IA à déterminer la pertinence de votre page pour une question donnée.

Les liens internes et la structure

Les crawlers suivent les liens internes de votre site. Une structure de liens logique (page d'accueil vers services, services vers FAQ, FAQ vers contact) aide les crawlers à découvrir toutes vos pages. Une page orpheline (sans aucun lien pointant vers elle) peut ne jamais être découverte par les crawlers.

Les textes alternatifs des images

Les crawlers IA ne voient pas les images elles-mêmes. Ils lisent les textes alternatifs (attribut alt). Si vous avez une photo de votre équipe avec alt="équipe", l'IA sait qu'il y a une photo d'équipe. Si le alt est vide, l'IA ignore complètement l'image. Utilisez des textes alternatifs descriptifs pour toutes les images importantes.

Ce que l'IA ne voit pas (et qui vous rend invisible)

Le contenu chargé par JavaScript

C'est le piège le plus répandu. GPTBot, ClaudeBot et PerplexityBot n'exécutent pas le JavaScript. Si votre site est une SPA (Single Page Application) construite en React, Vue.js ou Angular, et que le contenu n'est pas rendu côté serveur (SSR), les crawlers IA voient une page blanche. Votre site peut être magnifique pour un visiteur humain et totalement invisible pour l'IA.

Googlebot est l'exception : il peut exécuter le JavaScript. C'est pourquoi votre site peut être bien référencé sur Google (via Gemini) mais invisible pour ChatGPT et Claude. Si votre site est construit avec un framework JavaScript, vérifiez que le rendu côté serveur est activé.

Les images et vidéos sans texte

Un portfolio de photos sans descriptions, une vidéo de présentation sans transcription, une infographie sans légende textuelle. L'IA ne peut pas extraire d'informations de ces éléments visuels. Si votre page de services est composée principalement d'images avec peu de texte, l'IA n'a rien à citer. Ajoutez du texte descriptif à côté de chaque élément visuel important.

Le contenu derrière un login

Les crawlers IA ne peuvent pas se connecter à votre espace client, votre forum privé ou votre zone réservée. Tout contenu protégé par un mot de passe est inaccessible. Si vous avez du contenu expert derrière un mur de connexion, l'IA ne peut pas le lire. Envisagez de rendre publiques vos meilleures ressources pour améliorer votre visibilité IA.

Les fichiers PDF et documents

Les fichiers PDF hébergés sur votre site sont généralement lisibles par les crawlers, mais leur contenu est moins bien indexé que le HTML. Si vous avez des brochures, des catalogues ou des guides au format PDF, créez également une version HTML du contenu essentiel sur votre site. L'IA pourra extraire et citer ces informations plus facilement.

Les pop-ups et overlays

Les pop-ups de consentement cookies, les formulaires d'inscription et les bannières de promotion ne sont pas vus par les crawlers IA. Ils n'interfèrent pas avec la lecture du contenu. En revanche, si un overlay JavaScript bloque le rendu du contenu principal avant interaction, les crawlers qui n'exécutent pas JavaScript ne verront que l'overlay, pas votre contenu.

Votre site est-il lisible par l'IA ?

VestVale vérifie automatiquement si ChatGPT, Gemini, Claude et Google IA peuvent lire et citer votre entreprise.

Commencer | à partir de 19,95 €/mois

Comment optimiser votre site pour la lecture IA

Structurez votre contenu avec des titres clairs

Utilisez une hiérarchie H1 > H2 > H3 logique. Un seul H1 par page (le sujet principal). Des H2 pour chaque section majeure. Des H3 pour les sous-sections. L'IA utilise cette hiérarchie pour comprendre la structure de votre contenu et extraire les informations pertinentes.

Écrivez des premières phrases percutantes

L'IA extrait souvent les 2 à 3 premières phrases après un titre pour formuler sa réponse. Mettez l'information clé dans la première phrase, pas la deuxième. « Un ravalement de façade coûte entre 30 et 80 € par m² à Paris » est plus utile pour l'IA que « Le ravalement de façade est une opération qui consiste à remettre en état l'extérieur d'un bâtiment ».

Utilisez le format question-réponse

Le format FAQ est le plus efficace pour la visibilité IA. Écrivez la question de votre client comme titre H2 ou H3. Répondez dans les deux premières phrases. Ajoutez le contexte ensuite. ChatGPT extrait naturellement les réponses de ce format. Ajoutez le balisage schema FAQ pour rendre ces réponses encore plus accessibles.

Vérifiez le rendu sans JavaScript

Désactivez JavaScript dans votre navigateur et visitez votre site. Ce que vous voyez est ce que GPTBot, ClaudeBot et PerplexityBot voient. Si votre contenu principal disparaît, vous avez un problème. Contactez votre développeur pour activer le rendu côté serveur (SSR) ou le pré-rendu (prerendering).

Autorisez les crawlers IA

Vérifiez votre fichier robots.txt (votresite.fr/robots.txt). Assurez-vous qu'il n'y a pas de blocage pour GPTBot, OAI-SearchBot, ClaudeBot ou PerplexityBot. Si ces agents sont bloqués, l'IA ne peut pas lire votre site et s'appuie uniquement sur les mentions tierces de votre entreprise, que vous ne contrôlez pas.

Optimisez la vitesse de chargement

Les crawlers IA ont un budget de temps limité par site. Un site lent réduit le nombre de pages qu'ils peuvent lire. Optimisez la vitesse de votre serveur, réduisez la taille de vos images et minimisez les redirections. Un site rapide est mieux crawlé et donc mieux cité.

Ce que chaque crawler IA lit différemment

GPTBot / OAI-SearchBot (ChatGPT)

Ne lit que le HTML rendu côté serveur. N'exécute pas JavaScript. Priorise les données structurées, les titres et les premiers paragraphes. Utilise également les résultats Bing pour compléter.

Googlebot (Gemini)

Le crawler le plus sophistiqué. Exécute JavaScript, voit le rendu complet de la page. Accède également à Google Business Profile et Google Maps. Avantage unique pour les entreprises avec un écosystème Google solide.

ClaudeBot (Claude)

N'exécute pas JavaScript. Accorde un poids important à la qualité et la profondeur du contenu textuel. Privilégie les articles détaillés et les FAQ complètes. Récompense le contenu expert approfondi.

PerplexityBot (Perplexity)

N'exécute pas JavaScript. Utilise plusieurs moteurs de recherche. Cite systématiquement les sources avec des liens cliquables. Le seul crawler dont les citations génèrent du trafic direct vers votre site.

Pour en savoir plus sur les différences entre plateformes : Que sont les moteurs de recherche IA ?

Questions fréquemment posées

Mon site est fait avec WordPress. Est-il lisible par l'IA ?

Oui, généralement. WordPress génère du HTML côté serveur, donc les crawlers IA peuvent le lire. Vérifiez que votre thème ne charge pas le contenu principal via JavaScript (AJAX). Vérifiez aussi votre robots.txt : certains plugins de sécurité bloquent les crawlers IA par défaut.

Comment vérifier si GPTBot peut lire mon site ?

Vérifiez votre fichier robots.txt (votresite.fr/robots.txt). Cherchez « GPTBot » ou « OAI-SearchBot ». S'ils sont suivis de « Disallow: / », ils sont bloqués. Ensuite, désactivez JavaScript dans votre navigateur et vérifiez que votre contenu s'affiche normalement.

Dois-je créer un sitemap spécifique pour l'IA ?

Non. Les crawlers IA utilisent votre sitemap XML standard. Assurez-vous qu'il est à jour et qu'il inclut toutes vos pages importantes. Soumettez-le via Bing Webmaster Tools pour ChatGPT et via Google Search Console pour Gemini.

L'IA lit-elle le contenu de mes pages produits ?

Oui, si le contenu est en HTML accessible. Les descriptions de produits, les caractéristiques techniques, les avis clients intégrés et les FAQ produits sont tous lus par les crawlers. Ajoutez le balisage schema Product et AggregateRating pour maximiser la lisibilité IA de vos pages produits.

Les pages en français sont-elles moins bien lues ?

Non. ChatGPT, Gemini et Claude comprennent parfaitement le français. Les modèles multilingues traitent le français au même niveau que l'anglais. Mistral AI, le champion français, est naturellement optimisé pour le contenu en français.

Mon site est bien référencé sur Google mais invisible dans ChatGPT. Pourquoi ?

Probablement parce que votre site utilise du JavaScript que Googlebot exécute mais que GPTBot ne peut pas exécuter. Autre possibilité : votre site est bien indexé par Google mais pas par Bing (que ChatGPT utilise). Vérifiez votre indexation Bing et le rendu sans JavaScript de votre site.

Vérifiez si l'IA peut lire votre site web

VestVale surveille automatiquement ce que ChatGPT, Gemini, Claude et Google IA comprennent de votre entreprise.

À partir de 19,95 €/mois HT. Résiliation mensuelle.