Qu'est-ce que l'attaque WARP ?

WARP est une méthode décrite par des chercheurs de Cornell Tech. Elle consiste à glisser une dizaine de mots dans une page ouverte, comme un commentaire Reddit, pour orienter les IA de recherche vers de faux produits.

Quel est le taux de réussite de cette manipulation ?

Le texte piégé fait recommander des produits fictifs dans 38 à 51% des cas, et jusqu'à 62% lorsque l'appât est réparti sur plusieurs fils de discussion.

Quels outils sont les plus exposés ?

Gemini Deep Research s'appuie sur des contenus d'internautes dans environ 12% de ses citations, contre 0,4% pour l'outil équivalent d'OpenAI, qui les filtre davantage.

Treize mots suffisent à tromper les IA de recherche, alerte une étude

Et si quelques mots suffisaient à pousser une IA de recherche à vous recommander un produit qui n'existe pas ? C'est ce que démontre une étude de Cornell Tech, repérée à la mi-juin 2026. Les chercheurs Tingwei Zhang, Harold Triedman et Vitaly Shmatikov y décrivent une attaque, baptisée WARP, qui détourne les agents de recherche IA avec une poignée de mots placés au bon endroit.

Treize mots dans un commentaire

Le principe est aussi simple qu'inquiétant. Il suffit d'ajouter environ treize mots promotionnels à une page que l'agent IA lit déjà, par exemple un commentaire sur Reddit. Le système absorbe ces mots comme s'ils étaient dignes de confiance, puis met en avant le produit ou le service ainsi glissé. Dans leurs tests, les chercheurs ont réussi à faire recommander de pures inventions, comme un faux restaurant à Austin ou une fausse application de rencontres.

Les chiffres donnent la mesure du problème. Le texte piégé a permis de faire citer des produits fictifs dans 38 à 51% des cas lorsque la source était effectivement consultée. En répartissant l'appât sur plusieurs fils de discussion, le taux de réussite grimpe jusqu'à 62%. L'étude, intitulée "Deep-Research Agents Can Be Poisoned via User-Generated Content", a été menée sur plusieurs agents open source comme STORM, Co-STORM et OmniThink, avant d'en mesurer l'effet sur les outils grand public.

Ces systèmes accordent à peu près le même crédit à un commentaire Reddit anonyme et à un site gouvernemental.

La faille vient des sources ouvertes

Le coeur du problème tient à ce que lisent ces IA. Une large part des pages qu'elles consultent provient de sites où n'importe qui peut écrire : Reddit, Wikipédia, Quora, YouTube. Selon l'étude, ces contenus générés par les utilisateurs représentent entre 17 et 23% des pages récupérées par les agents. Or rien ne distingue, aux yeux du modèle, une information vérifiée d'un commentaire posté pour le manipuler.

Tous les outils ne réagissent pas de la même manière. Les chercheurs ont mesuré que l'outil de recherche approfondie de Google, Gemini Deep Research, s'appuyait sur ces contenus ouverts dans environ 12% de ses citations. À l'inverse, l'équivalent d'OpenAI ne les citait quasiment pas, à hauteur de 0,4%, signe qu'il les filtre beaucoup plus agressivement.

Ce que ça veut dire pour toi

Ces assistants de recherche sont de plus en plus utilisés pour comparer des produits, préparer un achat ou trancher une décision. L'étude rappelle une limite essentielle : une réponse d'IA bien présentée n'est pas une réponse vérifiée. Tant que ces agents traiteront un commentaire anonyme et une source officielle sur un pied d'égalité, il restera prudent de remonter aux sources citées et de croiser une recommandation avant de sortir la carte bleue.

Treize mots suffisent à tromper les IA de recherche, alerte une étude

Treize mots dans un commentaire

La faille vient des sources ouvertes

Ce que ça veut dire pour toi

Questions frequentes