
Claude Fable 5 : ce que les démos officielles ne vous disent pas
Le déclic : une démo qui ne m'a pas convaincu
Je préparais un module de formation sur le choix de modèle quand je suis retombé sur mon propre exemple "waouh" de Fable 5. Un scanner de secrets DevSecOps, construit de zéro, en une passe autonome, dans un dossier vide. Détecteurs AWS, clés PEM, JWT, entropie de Shannon, tests, README. Propre. Utilisable. Sorti de rien.
Et là, une gêne.
Ce truc, Opus 4.8 le sort aussi. Sonnet 4.6 probablement aussi. Un outil de 500 lignes en une session, c'est pile le registre où le surcoût ×2 de Fable ne se justifie pas. J'avais choisi une démo qui prouve que Fable est un bon agent de code. Pas une qui montre son plafond.
Du coup j'ai fait ce que je fais toujours quand un récit officiel me paraît trop lisse : j'ai croisé une douzaine de sources. L'annonce Anthropic, les benchmarks tiers, les revues hands-on, et surtout les gens qui l'ont vraiment fait tourner sur du gros. Voilà ce qui en ressort. Le bon, et ce que les annonces oublient soigneusement de préciser.
Le récit officiel : il est vrai (et franchement spectaculaire)
Rendons à César. Fable 5, sorti le 9 juin 2026, c'est la version grand public et bridée de Mythos 5, la classe de modèle frontière d'Anthropic. Et non, les démos ne sont pas du vent marketing.
| Démonstration | Ce que ça prouve vraiment |
|---|---|
| Stripe : migration d'un monorepo Ruby de 50 M de lignes en 1 jour (vs "plus de 2 mois" pour une équipe entière) | Long-horizon à l'échelle d'un code de production réel |
| Reconstruction du code source d'une web app depuis des captures d'écran seules | Vision → raisonnement → génération de bout en bout |
| Pokémon FireRed terminé avec un harness vision-only minimal (les Claude d'avant exigeaient un harness d'aide complexe) | Agent autonome sur des centaines d'étapes, sans béquilles |
| Slay the Spire : acte final atteint 3× plus souvent qu'Opus 4.8 grâce à la mémoire fichier persistante | Mémoire + planification long terme |
Côté chiffres, le tableau est net :
| Benchmark | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified | 95,0 % | 88,6 % | - |
| SWE-bench Pro (agentic) | 80,3 % | 69,2 % | 58,6 % |
| FrontierCode, Diamond split | 29,3 % | 13,4 % | 5,7 % |
| Vision (GDP.pdf, sans outils) | 29,8 % | 22,5 % | 24,9 % |
Ne regardez pas SWE-bench Verified. À 95 %, le benchmark est saturé, tout le monde s'y tasse. Le vrai signal, c'est le Diamond split de FrontierCode : 29,3 % contre 13,4 % pour Opus, soit plus du double sur le sous-ensemble des tâches les plus dures. C'est là, et nulle part ailleurs, que Fable creuse un écart.
Le témoignage qui m'a le plus marqué, c'est celui d'Ethan Mollick. Il demande à Fable une carte isochrone : temps de trajet depuis plusieurs villes, en intégrant avions, trains, voiture, marche. Le modèle lance seul des agents de recherche, collecte plus de 2 200 vols et des horaires de train, code la carte, puis vérifie ses propres résultats. Plus tard, il génère un doc de design de 19 pages et passe 9,5 heures en travail autonome à construire un logiciel de recherche complet.
Sa phrase résume tout : "je ne pilote plus, je commande."
Ce que les annonces oublient (soigneusement)
Bon. Si je m'arrêtais là, j'aurais pondu le 400ᵉ article extatique sur Fable 5. Sauf que la moitié intéressante commence ici.
1. Le coût réel n'est pas le ×2 affiché
Sur le papier : 10 par million de tokens en entrée/sortie. Le double d'Opus 4.8, le triple de Sonnet 4.6. Désagréable, mais lisible.
Sauf que l'adaptive thinking est toujours actif, sans bouton off. Résultat direct : une session complexe avale 500k à 1M de tokens en routine. Le coût par tâche n'est donc pas 2× celui d'Opus. Il peut être bien pire, parce que Fable réfléchit énormément avant d'agir.
Un ordre de grandeur concret : Simon Willison, l'un des testeurs les plus méthodiques de l'écosystème, a dépensé 110 $ en une seule journée de travail de prod réel — environ 5h30 de sessions. Son verdict tient en un mot ("a beast"), mais sa conclusion pratique est la même que la mienne : surveillance des coûts obligatoire.
Le ×2 du prix de liste vous endort. Ce qui vous saigne, c'est le volume de tokens par tâche. Un workflow à 0,12 que la simple règle "×2" laisse prévoir, parce que le nombre de tokens explose en même temps que le prix unitaire. La première fois que vous regardez /cost après une grosse session Fable, ça pique. Surveillez, toujours.
2. Les timeouts : la face cachée de l'autonomie
Une revue indépendante (CodeRabbit) a lâché Fable 5 sur 33 tâches de code. Le résultat est instructif :
33 tâches → 19 timeouts
6 succès
4 échecs
4 annulations
Dix-neuf timeouts. Le modèle "explore plus longtemps que le harness ne peut le supporter". Cette autonomie qui impressionne tant dans la démo isochrone de Mollick devient un gouffre à budget dès que la tâche n'a pas de bornes claires. Fable ne sait pas s'arrêter tout seul. Il faut le lui imposer.
3. "Profond" ne veut pas dire "livrable"
Quand Fable finit, le code en jette : architecture en couches, types, cas limites gérés. Mais les revues convergent toutes sur le même point. Les premiers jets demandent souvent plus de couverture de tests, une gestion d'état plus sûre, des gardes sur les entrées invalides avant la prod. L'autonomie est réelle. Le résultat n'est pas magique. Il reste du boulot humain au bout du tunnel.
4. Les garde-fous se déclenchent au moindre soupçon (et Anthropic a déjà dû s'excuser)
Fable reroute en silence vers Opus 4.8 toute requête qui touche à la cybersécurité, la bio-chimie ou la distillation de modèles (moins de 5 % des sessions, dit Anthropic). Sur le principe, sain. En pratique, Mollick note que ça "se déclenche au moindre soupçon de problème de sécurité", au point de gêner de la recherche défensive parfaitement légitime. Si votre métier frôle la sécu, préparez-vous à des reroutages agaçants.
Et "agaçant" est un euphémisme, vu ce qui s'est passé dans les 48 heures qui ont suivi le lancement. The Register a compilé les faux positifs remontés par les utilisateurs : un chercheur de la Gates Foundation bloqué sur un simple "Hello" en premier message, une immunologue dont le mot "cancer" déclenche le classifieur de biosécurité, des candidats incapables de faire relire un CV mentionnant "Application Security Architect". Moins de 5 % des sessions, peut-être. Mais sur des millions d'utilisateurs, c'est un volume de friction énorme — et toujours sur les profils les plus légitimes.
Le pire était ailleurs, et invisible. Fable 5 embarquait un guardrail anti-distillation qui, contrairement aux refus affichés, dégradait silencieusement les réponses des requêtes suspectées de servir à entraîner d'autres modèles : prompts modifiés, steering vectors, sorties intentionnellement défectueuses, sans le moindre avertissement. La documentation l'assumait noir sur blanc. Quand la communauté l'a découvert le 10 juin, la réaction a été violente — un utilisateur Reddit a résumé le sentiment général : "c'est prendre votre argent et empoisonner votre base de code".
Le 11 juin, Anthropic a plié : "we made the wrong trade-off", excuses publiques, et le guardrail invisible devient un refus explicite. Dans la même fournée de correctifs : le fallback vers Opus 4.8 sera désormais affiché à l'utilisateur, et les refus API incluront une raison explicite.
Des sorties silencieusement dégradées ont pu exister avant le correctif sur tout ce qui ressemblait, de près ou de loin, à de la génération de données d'entraînement (datasets synthétiques, paires question-réponse, etc.). Si un résultat de cette fenêtre vous a paru bizarrement mauvais, c'est peut-être pour ça. Re-testez après les correctifs.
L'épisode dit quelque chose de plus large : la couche sécurité de Fable 5 est en itération publique. Le modèle est figé, ses garde-fous ne le sont pas. Ce que vous testez cette semaine ne se comportera pas comme ce que vous déploierez le mois prochain.
5. L'effet boîte noire
C'est le revers de "je commande au lieu de piloter". Vous ne voyez plus les décisions intermédiaires. Fable bosse comme un studio entier qui prend des centaines de micro-choix invisibles. Génial quand ça tombe juste. Déroutant quand il part dans le décor et que vous n'avez aucune prise pour le corriger en cours de route.
La boîte noire va jusqu'à l'identité du modèle qui vous répond : à cause du fallback de sécurité, impossible de distinguer une réponse de Fable 5 d'une réponse d'Opus 4.8 — vous payez le tarif Fable, vous recevez parfois Opus, sans le savoir. Pour un workload de production qui suppose un comportement de modèle constant, c'est un vrai problème d'observabilité. Le correctif annoncé le 11 juin (fallback affiché) le règle en partie, mais seulement côté interface ; sur l'API, vérifiez ce que vos logs capturent.
Comment je l'utilise concrètement
Après tout ça, ma position n'est pas "Fable 5 c'est surfait". C'est plutôt : un outil de spécialiste, pas un réglage de session par défaut.
- Fable pour les tâches vraiment dures. Migration multi-fichiers, refactor à l'échelle d'un repo, problème ouvert que Sonnet ou Opus n'arrivent pas à débloquer. Jamais pour de la routine.
- Toujours borner.
--max-turns, un budget de tokens, un timeout. Sans ça, les 19 timeouts sur 33 vous tendent les bras. - Toujours mesurer.
/costaprès chaque tâche lourde, et la question honnête qui va avec : "est-ce qu'Opus 4.8 aurait fait pareil pour moitié prix ?" La réponse est oui plus souvent qu'on ne croit.
Détail pratique qui change le calcul à court terme : Fable 5 est inclus sans surcoût dans les plans Pro, Max, Team et Enterprise du 9 au 22 juin. Après, il basculera sur des crédits d'usage. Autrement dit, la fenêtre pour le tester sur vos tâches dures, sans toucher au portefeuille, se referme vite. C'est le bon moment pour constituer votre propre jeu d'évaluation — pas celui des démos.
La bonne question, ce n'est pas "quel est le meilleur modèle ?". C'est "quel (modèle × effort × bornes) pour cette tâche-là ?". Un Opus 4.8 en effort moyen, bien cadré, bat un Fable 5 lâché sans laisse neuf fois sur dix. Et coûte une fraction du prix.
Verdict
Les démos officielles de Fable 5 sont vraies. Migrer 50 millions de lignes en un jour, c'est un saut générationnel, pas du flan. Mais une démo réussie chez Stripe, avec des ingénieurs aux commandes, ne dit rien de ce que vous allez vivre sur votre repo, sans bornes, un mardi après-midi : une session à un million de tokens qui timeout sans rien livrer.
Le modèle est extraordinaire là où la difficulté le justifie. Et un gouffre à budget partout ailleurs.
Mon scanner de secrets était une mauvaise démo. Pas parce que Fable l'a mal fait, il l'a même très bien fait, mais parce que la tâche était trop facile pour montrer ce qui rend ce modèle spécial. Le vrai test de Fable 5, c'est de lui confier ce qu'aucun autre modèle ne sait finir. En gardant une main sur le portefeuille pendant qu'il travaille.
Sources : annonce Claude Fable 5 & Mythos 5 - Anthropic, benchmarks détaillés - Vellum, revue hands-on (33 tâches, timeouts) - CodeRabbit, "What it feels like to work with Mythos" - Ethan Mollick, Initial impressions (110 $/jour) - Simon Willison, excuses sur le guardrail invisible - Gizmodo, faux positifs des classifieurs - The Register, critique des chercheurs cybersécurité - CryptoBriefing, Agentic Coding Deep Dive - DigitalApplied, couverture lancement - Tom's Hardware.
Articles similaires
Claude Code comme back-office : connecter Drive, Gmail et Trello pour piloter sa boîte
claude-code · ia · mcp
MCP chrome-devtools depuis WSL : piloter (et auto-lancer) une Chrome Windows
claude-code · mcp · wsl
Claude Code Remote Control : reprendre ses sessions WSL depuis le téléphone
claude-code · ia · productivite