Comment optimiser (GEO) un site web pour l'IA générative (LLMs)

Lecture de 5 minutes

Découvrabilité du contenu

Il est essentiel de s'assurer que le contenu qu'on crée pour l'IA est découvert pour qu'il soit intégré à leurs modèles. Bien que la navigation du site sera parcourue par les moteurs de référencement (crawlers), il faut aussi considérer augmenter la découvrabilité à l'aide des méthodes suivantes :

Ajout de liens vers les articles satellites à partir de l'article principal (par exemple, avec une section «Articles connexes») afin d'éviter le contenu dit «orphelin».
Mise en place en place d'un sitemap XML.
Mise en place des balises link avec le paramètre rel adéquat (prev, next, alt, etc.)
Configuration non-bloquante des meta-tags (index, follow, etc.)
Configuration non-bloquante des entêtes de réponse du serveur.
Mise en place en place d'un flux RSS, qui peut être utilisé par certains crawlers.

Mur de cookies et mur payant

Le contenu masqué derrière un mur de cookies ou un mur payant très restrictif ne sera pas indexé correctement. Ces murs doivent être mis en place avec une grande attention à la découvrabilité. Le contenu doit être accessible pour les robots, même s'il est restreint pour le visiteur.

Contenu injecté asynchrone

Il en va de même du contenu injecté uniquement côté client (Javascript asynchrone) : celui-ci pourrait ne pas être indexé si ce n'est pas fait avec une grande attention. Les sites qui utilisent des technologies destinées davantage à des applications (tel que React) peuvent moins bien performer si des mesures compensatoires ne sont pas mises en place.

Adapter les formats

En plus d'être rédigé et découvert, le contenu idéal pour l'intelligence artificielle doit aussi être présenté dans un format pragmatique et sans encombrement superflu. C'est en offrant des formats facilement consommables pour cette nouvelle audience (IA) qu'on amplifie l'impact des résultats.

Depuis l'arrivée du HTML, les codes sources des sites web se complexifient pour créer des sites web joli, animé et responsive destinés à plaire à l'humain. Pourtant, ce que les moteurs de référencement des IAs (crawlers) recherchent, c'est du contenu structuré et sémantiquement correct. Tous les éléments de de la page qui n'apportent pas de contenu ne leur sont que du bruit.

Heureusement, la recommandation ici n'est pas de retirer tous les éléments graphiques du web. Il s'agit au minimum de mettre en place un DOM simple, hiérarchique et valide. Ou, encore mieux, d'offrir des versions alternatives du contenu. Une version pour les visiteurs humains, et une version pour les visiteurs qui préfèrent le contenu brut.

Certaines de ces versions alternatives pourraient être privilégiées et mises davantage en valeur par les moteurs de recherche.

JSON‑LD/schema.org

Déjà présentes dans un grand nombre de site web, les données JSON‑LD (ou schema.org) sont aussi bien comprises par les engins d'indexations des IA. L'intégration de données structurées JSON‑LD/schema.org reste donc un levier majeur pour rendre votre contenu exploitable par l’IA. Considérer les types d'entité suivantes :

Article
Person/Organization pour les auteurs
FAQPage/QAPage
BreadcrumbList
HowTo
Product
Event

Pour en tirer le maximum, privilégiez un identifiant JSON‑LD (@id) unique par page, des identifiants stables et des références croisées (publisher, author, isPartOf) pour relier les entités. Il est aussi possible de lier votre contenu avec d'autres entités du web avec sameAs (Wikidata, LinkedIn, GitHub, etc.). Cela permet de lier votre contenu à la représentation globale que se fait l'IA de son sujet.

Markdown

Le format Markdown se prête aussi très bien à une interprétation sans ambiguïté, puisqu'il est strictement composé de texte brut et structuré. L'absence d'éléments graphiques et sa simplicité syntaxique font en sorte que tout le contenu peut-être utilisable par l'IA, contrairement au HTML où l'engin d'indexation doit interpréter et filtrer les éléments d'un DOM parfois complexe.

C'est l'hypothèse que met de l'avant Dries Buytaert, le créateur de Drupal. Une hypothèse tout à fait pertinente et plausible à mon avis.

Par exemple, l'article que vous lisez actuellement est la version standard, destinée à un visiteur régulier. Mais en ajoutant «.md» à l'adresse de votre navigateur, vous pourrez accéder au format Markdown du même article. Et le site web divulgue l'existence de ce format alternatif en utilisant une balise <link> :

<link rel="alternate" type="application/markdown" title="Adapter un site web et son contenu à l&#039;IA (LLMs)" href="https://jmcouillard.com/fr/blog/comment-optimiser-geo-un-site-web-pour-lia-generative-llms.md" />

Plusieurs formats peuvent donc coexister, pour la même page de contenu.

Faciliter la citation

De plus en plus, les réponses des IAs incluent des citations issues directement du contenu de site web spécifique. Il est donc impératif de faciliter la citation afin d'être crédité adéquatement :

Utiliser des paragraphes courts qui peuvent être représentés plus facilement dans les bases de données vectorielles des modèles.
Utiliser des ancres et des URLs stables pour qu'une citation puisse amener à un bloc de contenu spécifique.
Utiliser le <meta rel=canonical /> afin de fournir un URL identifiant le contenu clairement.
En cas de changement de URLs, utiliser des redirections 301.
Pour du contenu multilingue, utiliser des URL distinctes par langue avec des hreflang cohérents, afin d’éviter des citations dans la mauvaise langue.

Ne pas restreindre l'accès aux moteurs d'indexation (crawlers)

Des paramètres peuvent être mis en place pour indiquer aux moteurs d'indexation quels comportements adopter devant votre contenu. Si vous voulez que votre contenu soit visible dans les moteurs de recherche et exploitable par les assistants IA, vérifiez que vos indications n’entravent pas l'indexation.

Les directives incluses dans le fichier robots.txt et dans l'entête HTTP X‑Robots‑Tag en font partie et vous devez veiller à ce qu'elles respectent vos intentions. Attention aussi à traiter différemment l’indexation (Googlebot, Bingbot) et l’usage pour l’entraînement de modèles (ex. Google-Extended, Applebot-Extended, GPTBot, Claude/Claude-Web, PerplexityBot, CCBot) : les premiers doivent généralement rester autorisés, alors que les seconds peuvent être ajustés selon votre politique de données.

Dans le même sens, Cloudflare, propose des fonctionnalités de Bot Management (y compris un filtre “AI Scrapers & Crawlers”), qui peut bloquer la découverte ou la mise à jour des pages.

En tout temps, il faut veiller à ce que ces paramètres respectent vos intentions.

Lire le prochain article de la série