Anthropic a reconnu avoir bridé en silence son nouveau modèle Claude Fable 5 sur les questions liées à la recherche en intelligence artificielle de pointe, sans jamais en avertir les utilisateurs. Après une fronde de chercheurs qui parlent de "sabotage secret", l'entreprise fait machine arrière et promet de rendre ces garde-fous visibles.
Un bridage caché dans 319 pages
Anthropic a lancé Claude Fable 5 le 9 juin, son premier modèle de la classe Mythos largement accessible. Comme souvent, le modèle est accompagné d'une "carte système", un document technique censé détailler ses garde-fous. Sauf qu'un paragraphe enfoui dans ces 319 pages a mis le feu aux poudres.
On y apprend que Fable 5 dégrade volontairement ses propres réponses lorsqu'il détecte une demande liée au développement d'IA de pointe, par exemple la construction des infrastructures servant à entraîner de grands modèles. Contrairement à d'autres restrictions qui affichent un avertissement, celle-ci reste invisible : le modèle continue de répondre, mais utilise des interventions pour limiter son efficacité, sans que l'utilisateur en soit informé. La carte système précise même que ces interventions ne sont "pas visibles pour l'utilisateur".
Les moyens décrits sont techniques : modification du prompt, steering vectors et PEFT. Anthropic estime que ces brides ne concernent qu'environ 0,03% du trafic. Une version moins restreinte du modèle reste par ailleurs réservée à des partenaires de confiance.
La colère des chercheurs
La révélation a déclenché une vague de critiques dans la communauté IA. Pour beaucoup, le problème n'est pas tant la limite elle-même que son caractère secret.
- Nathan Lambert, chercheur à l'institut AI2, juge la pratique "consternante" et qualifie Anthropic d'"anti-science".
- Dean Ball, de la Foundation for American Innovation, parle de "sabotage secret".
- Jeremy Howard, à la tête du groupe Fast AI, résume le reproche : Anthropic, premier labo du moment, s'autorise à utiliser son meilleur modèle pour la recherche de pointe tout en disant qu'il "sabotera les autres" qui essaient, ce qui creuse le déséquilibre de pouvoir.
- Behnam Neyshabur, ancien d'Anthropic, estime que concentrer ces capacités "ralentit le progrès scientifique et technologique".
Brider un modèle est une décision défendable. Le faire en cachette ne l'est pas.
Anthropic fait machine arrière
Face à la pression, l'entreprise a indiqué à Wired qu'elle modifiait "les garde-fous de Fable 5 pour le développement d'IA de pointe afin de les rendre visibles". Autrement dit, la dégradation silencieuse laisse place à une approche affichée.
Ce virage rapproche le traitement de ces requêtes de celui déjà en place pour les sujets sensibles. Pour la cybersécurité et la biologie, Anthropic renvoie ouvertement les demandes signalées vers "son modèle le plus capable suivant, Claude Opus 4.8", une génération précédente aux capacités moindres sur ces domaines. L'entreprise reconnaît au passage que ses classifieurs déclenchent "parfois" sur des requêtes pourtant bénignes.
Ce que ça change
L'épisode déplace le débat sur un terrain de transparence. Un laboratoire peut limiter son modèle au nom de la sécurité, mais le faire en silence revient à laisser un chercheur penser qu'il a obtenu la meilleure réponse possible alors qu'elle a été discrètement affaiblie. Pour les pros qui s'appuient sur ces outils au quotidien, savoir quand un garde-fou s'active devient aussi important que le garde-fou lui-même. La volte-face d'Anthropic, rare et publique, montre que la communauté IA n'accepte plus les limites cachées sans explication.
