Anthropic voulait offrir aux défenseurs un outil taillé pour la cybersécurité. À peine ouvert au public, son modèle Fable se heurte à ceux qu'il était censé aider. Plusieurs chercheurs en sécurité informatique reprochent à ses garde-fous d'être si larges qu'ils bloquent leur travail quotidien, parfois pour une demande aussi anodine qu'une relecture de code.

Un modèle de cyberdéfense rattrapé par ses propres filtres

Sorti le mardi 10 juin 2026, Fable est la version publique et limitée de Mythos, le modèle de cybersécurité maison d'Anthropic. Ses garde-fous sont censés repérer les messages liés à la cybersécurité ou à la biologie, pour empêcher la création de logiciels malveillants, la compromission de systèmes ou la conception d'armes biologiques. Sur le papier, une précaution logique pour un outil aussi sensible.

Dans la pratique, les professionnels de la sécurité décrivent un filtre qui se déclenche au moindre mot suspect. Lorsqu'il s'active, Fable ne répond pas avec sa pleine puissance, il rétrograde la requête vers Claude Opus 4.8, un modèle généraliste jugé moins à l'aise sur ces sujets. Résultat, ceux qui ont le plus besoin de l'outil se retrouvent renvoyés vers une version dégradée.

Le logo d'Anthropic, éditeur des modèles Claude
Image : TechCrunch

Un filtrage par mots-clés jugé trop grossier

Le cœur de la critique tient à la méthode. Pour Matt Suiche, fondateur de la start-up de cybersécurité Tolmo, le système semble fonctionner par mots-clés.

Si tu lui demandes d'écrire du code sécurisé, il suppose que c'est du travail de cybersécurité au lieu de bonnes pratiques de développement, et tu es rétrogradé.

Même constat du côté de Valentina Palmiotti, alias « Chompie », chercheuse chez IBM X-Force. Selon elle, Fable « rejette toute requête qui pourrait être, même de loin, liée au cyber », jusqu'à des tâches anodines comme la lecture d'un article de blog. Un autre chercheur rapporte qu'une simple demande de revue de code suffit à déclencher les garde-fous. Le problème n'est pas la prudence en soi, mais un tri qui confond le travail défensif avec l'usage offensif qu'il prétend bloquer.

La parade d'Anthropic, un programme de vérification

Anthropic n'est pas aveugle au sujet. L'entreprise propose un Cyber Verification Program, censé accorder moins de restrictions aux professionnels de la sécurité une fois leur profil approuvé. De quoi, en théorie, rendre Fable utilisable par ceux dont c'est le métier. Interrogée sur les critiques, l'entreprise n'a pas répondu dans l'immédiat.

Reste que la solution déplace le problème plus qu'elle ne le règle. Elle suppose de passer par une validation préalable pour accéder à un outil vendu comme public, là où les chercheurs attendaient surtout un filtre plus fin, capable de distinguer une attaque d'une défense.

Ce que ça dit du dilemme des labos

Cette friction illustre un casse-tête de fond pour les éditeurs de modèles. Trop ouvrir un outil de cybersécurité, c'est risquer d'armer des attaquants. Trop le verrouiller, c'est pénaliser les défenseurs qui en ont le plus besoin. Pour les pros de la sécurité, la leçon est concrète, un modèle bridé par excès de précaution peut vite devenir inutilisable sur le terrain. Et pour la suite, la qualité d'un garde-fou ne se mesurera pas à sa sévérité, mais à sa capacité à comprendre l'intention derrière une requête.