TL;DR

Les démos phares sont réelles et impressionnantes. Stripe a migré un monorepo Ruby de 50 millions de lignes en un jour (deux mois pour une équipe), Fable reconstruit le code d'une web app à partir de captures seules, et termine Pokémon FireRed avec un harness vision-only. SWE-bench Verified à 95 % contre 88,6 % pour Opus 4.8.
Le vrai différenciateur, c'est le Diamond split de FrontierCode. ×2 sur Opus 4.8 sur les tâches les plus dures. Pas SWE-bench, déjà saturé.
Le revers que les annonces taisent : le coût par workflow. Adaptive thinking toujours actif, donc 500k à 1M tokens en routine sur une session complexe. Le ×2 du prix de liste cache un facteur bien plus violent en pratique.
Une revue tierce sur 33 tâches : 19 timeouts, 6 succès, 4 échecs, 4 annulations. Le modèle explore plus longtemps que le harness ne le supporte. Sans bornes (--max-turns, budget), il brûle des dollars sans rien finir.
Le changement de posture est réel. On passe de "je pilote pas-à-pas" à "je commande un résultat". Plus puissant, mais effet boîte noire : on ne voit plus les décisions intermédiaires.
Mise à jour du 11 juin : Anthropic s'excuse déjà. Un guardrail invisible anti-distillation dégradait silencieusement les sorties. Tollé des chercheurs, "we made the wrong trade-off" admis, refus rendus explicites. Les faux positifs des classifieurs (un "Hello" bloqué, le mot "cancer" signalé) sont en cours de correction.
Ma règle. Fable 5 sur les tâches vraiment longues et ouvertes, bornées et mesurées (/cost). Opus 4.8 ou Sonnet en routine. Le surcoût ne se rentabilise que sur la difficulté. Et la fenêtre d'essai est courte : inclus sans surcoût dans les plans Pro/Max jusqu'au 22 juin seulement.

Le déclic : une démo qui ne m'a pas convaincu

Je préparais un module de formation sur le choix de modèle quand je suis retombé sur mon propre exemple "waouh" de Fable 5. Un scanner de secrets DevSecOps, construit de zéro, en une passe autonome, dans un dossier vide. Détecteurs AWS, clés PEM, JWT, entropie de Shannon, tests, README. Propre. Utilisable. Sorti de rien.

Et là, une gêne.

Ce truc, Opus 4.8 le sort aussi. Sonnet 4.6 probablement aussi. Un outil de 500 lignes en une session, c'est pile le registre où le surcoût ×2 de Fable ne se justifie pas. J'avais choisi une démo qui prouve que Fable est un bon agent de code. Pas une qui montre son plafond.

Du coup j'ai fait ce que je fais toujours quand un récit officiel me paraît trop lisse : j'ai croisé une douzaine de sources. L'annonce Anthropic, les benchmarks tiers, les revues hands-on, et surtout les gens qui l'ont vraiment fait tourner sur du gros. Voilà ce qui en ressort. Le bon, et ce que les annonces oublient soigneusement de préciser.

Le récit officiel : il est vrai (et franchement spectaculaire)

Rendons à César. Fable 5, sorti le 9 juin 2026, c'est la version grand public et bridée de Mythos 5, la classe de modèle frontière d'Anthropic. Et non, les démos ne sont pas du vent marketing.

Démonstration	Ce que ça prouve vraiment
Stripe : migration d'un monorepo Ruby de 50 M de lignes en 1 jour (vs "plus de 2 mois" pour une équipe entière)	Long-horizon à l'échelle d'un code de production réel
Reconstruction du code source d'une web app depuis des captures d'écran seules	Vision → raisonnement → génération de bout en bout
*Pokémon FireRed terminé avec un harness vision-only* minimal** (les Claude d'avant exigeaient un harness d'aide complexe)	Agent autonome sur des centaines d'étapes, sans béquilles
Slay the Spire : acte final atteint 3× plus souvent qu'Opus 4.8 grâce à la mémoire fichier persistante	Mémoire + planification long terme

Côté chiffres, le tableau est net :

Benchmark	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified	95,0 %	88,6 %	-
SWE-bench Pro (agentic)	80,3 %	69,2 %	58,6 %
FrontierCode, Diamond split	29,3 %	13,4 %	5,7 %
Vision (GDP.pdf, sans outils)	29,8 %	22,5 %	24,9 %

Le chiffre qui compte vraiment

Ne regardez pas SWE-bench Verified. À 95 %, le benchmark est saturé, tout le monde s'y tasse. Le vrai signal, c'est le Diamond split de FrontierCode : 29,3 % contre 13,4 % pour Opus, soit plus du double sur le sous-ensemble des tâches les plus dures. C'est là, et nulle part ailleurs, que Fable creuse un écart.

Le témoignage qui m'a le plus marqué, c'est celui d'Ethan Mollick. Il demande à Fable une carte isochrone : temps de trajet depuis plusieurs villes, en intégrant avions, trains, voiture, marche. Le modèle lance seul des agents de recherche, collecte plus de 2 200 vols et des horaires de train, code la carte, puis vérifie ses propres résultats. Plus tard, il génère un doc de design de 19 pages et passe 9,5 heures en travail autonome à construire un logiciel de recherche complet.

Sa phrase résume tout : "je ne pilote plus, je commande."

Ce que les annonces oublient (soigneusement)

Bon. Si je m'arrêtais là, j'aurais pondu le 400ᵉ article extatique sur Fable 5. Sauf que la moitié intéressante commence ici.

1. Le coût réel n'est pas le ×2 affiché

Sur le papier : 10 $/ 50$ par million de tokens en entrée/sortie. Le double d'Opus 4.8, le triple de Sonnet 4.6. Désagréable, mais lisible.

Sauf que l'adaptive thinking est toujours actif, sans bouton off. Résultat direct : une session complexe avale 500k à 1M de tokens en routine. Le coût par tâche n'est donc pas 2× celui d'Opus. Il peut être bien pire, parce que Fable réfléchit énormément avant d'agir.

Un ordre de grandeur concret : Simon Willison, l'un des testeurs les plus méthodiques de l'écosystème, a dépensé 110 $ en une seule journée de travail de prod réel — environ 5h30 de sessions. Son verdict tient en un mot ("a beast"), mais sa conclusion pratique est la même que la mienne : surveillance des coûts obligatoire.

Le piège FinOps

Le ×2 du prix de liste vous endort. Ce qui vous saigne, c'est le volume de tokens par tâche. Un workflow à 0,12 $avec Opus peut grimper bien au-delà du 0,24$ que la simple règle "×2" laisse prévoir, parce que le nombre de tokens explose en même temps que le prix unitaire. La première fois que vous regardez /cost après une grosse session Fable, ça pique. Surveillez, toujours.

2. Les timeouts : la face cachée de l'autonomie

Une revue indépendante (CodeRabbit) a lâché Fable 5 sur 33 tâches de code. Le résultat est instructif :

33 tâches →  19 timeouts
              6 succès
              4 échecs
              4 annulations

Dix-neuf timeouts. Le modèle "explore plus longtemps que le harness ne peut le supporter". Cette autonomie qui impressionne tant dans la démo isochrone de Mollick devient un gouffre à budget dès que la tâche n'a pas de bornes claires. Fable ne sait pas s'arrêter tout seul. Il faut le lui imposer.

3. "Profond" ne veut pas dire "livrable"

Quand Fable finit, le code en jette : architecture en couches, types, cas limites gérés. Mais les revues convergent toutes sur le même point. Les premiers jets demandent souvent plus de couverture de tests, une gestion d'état plus sûre, des gardes sur les entrées invalides avant la prod. L'autonomie est réelle. Le résultat n'est pas magique. Il reste du boulot humain au bout du tunnel.

4. Les garde-fous se déclenchent au moindre soupçon (et Anthropic a déjà dû s'excuser)

Fable reroute en silence vers Opus 4.8 toute requête qui touche à la cybersécurité, la bio-chimie ou la distillation de modèles (moins de 5 % des sessions, dit Anthropic). Sur le principe, sain. En pratique, Mollick note que ça "se déclenche au moindre soupçon de problème de sécurité", au point de gêner de la recherche défensive parfaitement légitime. Si votre métier frôle la sécu, préparez-vous à des reroutages agaçants.

Et "agaçant" est un euphémisme, vu ce qui s'est passé dans les 48 heures qui ont suivi le lancement. The Register a compilé les faux positifs remontés par les utilisateurs : un chercheur de la Gates Foundation bloqué sur un simple "Hello" en premier message, une immunologue dont le mot "cancer" déclenche le classifieur de biosécurité, des candidats incapables de faire relire un CV mentionnant "Application Security Architect". Moins de 5 % des sessions, peut-être. Mais sur des millions d'utilisateurs, c'est un volume de friction énorme — et toujours sur les profils les plus légitimes.

Le pire était ailleurs, et invisible. Fable 5 embarquait un guardrail anti-distillation qui, contrairement aux refus affichés, dégradait silencieusement les réponses des requêtes suspectées de servir à entraîner d'autres modèles : prompts modifiés, steering vectors, sorties intentionnellement défectueuses, sans le moindre avertissement. La documentation l'assumait noir sur blanc. Quand la communauté l'a découvert le 10 juin, la réaction a été violente — un utilisateur Reddit a résumé le sentiment général : "c'est prendre votre argent et empoisonner votre base de code".

Le 11 juin, Anthropic a plié : "we made the wrong trade-off", excuses publiques, et le guardrail invisible devient un refus explicite. Dans la même fournée de correctifs : le fallback vers Opus 4.8 sera désormais affiché à l'utilisateur, et les refus API incluront une raison explicite.

Si vous avez utilisé Fable 5 entre le 9 et le 11 juin

Des sorties silencieusement dégradées ont pu exister avant le correctif sur tout ce qui ressemblait, de près ou de loin, à de la génération de données d'entraînement (datasets synthétiques, paires question-réponse, etc.). Si un résultat de cette fenêtre vous a paru bizarrement mauvais, c'est peut-être pour ça. Re-testez après les correctifs.

L'épisode dit quelque chose de plus large : la couche sécurité de Fable 5 est en itération publique. Le modèle est figé, ses garde-fous ne le sont pas. Ce que vous testez cette semaine ne se comportera pas comme ce que vous déploierez le mois prochain.

5. L'effet boîte noire

C'est le revers de "je commande au lieu de piloter". Vous ne voyez plus les décisions intermédiaires. Fable bosse comme un studio entier qui prend des centaines de micro-choix invisibles. Génial quand ça tombe juste. Déroutant quand il part dans le décor et que vous n'avez aucune prise pour le corriger en cours de route.

La boîte noire va jusqu'à l'identité du modèle qui vous répond : à cause du fallback de sécurité, impossible de distinguer une réponse de Fable 5 d'une réponse d'Opus 4.8 — vous payez le tarif Fable, vous recevez parfois Opus, sans le savoir. Pour un workload de production qui suppose un comportement de modèle constant, c'est un vrai problème d'observabilité. Le correctif annoncé le 11 juin (fallback affiché) le règle en partie, mais seulement côté interface ; sur l'API, vérifiez ce que vos logs capturent.

Comment je l'utilise concrètement

Après tout ça, ma position n'est pas "Fable 5 c'est surfait". C'est plutôt : un outil de spécialiste, pas un réglage de session par défaut.

Mes trois règles

Fable pour les tâches vraiment dures. Migration multi-fichiers, refactor à l'échelle d'un repo, problème ouvert que Sonnet ou Opus n'arrivent pas à débloquer. Jamais pour de la routine.
Toujours borner. --max-turns, un budget de tokens, un timeout. Sans ça, les 19 timeouts sur 33 vous tendent les bras.
Toujours mesurer. /cost après chaque tâche lourde, et la question honnête qui va avec : "est-ce qu'Opus 4.8 aurait fait pareil pour moitié prix ?" La réponse est oui plus souvent qu'on ne croit.

Détail pratique qui change le calcul à court terme : Fable 5 est inclus sans surcoût dans les plans Pro, Max, Team et Enterprise du 9 au 22 juin. Après, il basculera sur des crédits d'usage. Autrement dit, la fenêtre pour le tester sur vos tâches dures, sans toucher au portefeuille, se referme vite. C'est le bon moment pour constituer votre propre jeu d'évaluation — pas celui des démos.

La bonne question, ce n'est pas "quel est le meilleur modèle ?". C'est "quel (modèle × effort × bornes) pour cette tâche-là ?". Un Opus 4.8 en effort moyen, bien cadré, bat un Fable 5 lâché sans laisse neuf fois sur dix. Et coûte une fraction du prix.

Verdict

Les démos officielles de Fable 5 sont vraies. Migrer 50 millions de lignes en un jour, c'est un saut générationnel, pas du flan. Mais une démo réussie chez Stripe, avec des ingénieurs aux commandes, ne dit rien de ce que vous allez vivre sur votre repo, sans bornes, un mardi après-midi : une session à un million de tokens qui timeout sans rien livrer.

Le modèle est extraordinaire là où la difficulté le justifie. Et un gouffre à budget partout ailleurs.

Mon scanner de secrets était une mauvaise démo. Pas parce que Fable l'a mal fait, il l'a même très bien fait, mais parce que la tâche était trop facile pour montrer ce qui rend ce modèle spécial. Le vrai test de Fable 5, c'est de lui confier ce qu'aucun autre modèle ne sait finir. En gardant une main sur le portefeuille pendant qu'il travaille.

Sources : annonce Claude Fable 5 & Mythos 5 - Anthropic, benchmarks détaillés - Vellum, revue hands-on (33 tâches, timeouts) - CodeRabbit, "What it feels like to work with Mythos" - Ethan Mollick, Initial impressions (110 $/jour) - Simon Willison, excuses sur le guardrail invisible - Gizmodo, faux positifs des classifieurs - The Register, critique des chercheurs cybersécurité - CryptoBriefing, Agentic Coding Deep Dive - DigitalApplied, couverture lancement - Tom's Hardware.

Claude Fable 5 : ce que les démos officielles ne vous disent pas

Le déclic : une démo qui ne m'a pas convaincu

Le récit officiel : il est vrai (et franchement spectaculaire)

Ce que les annonces oublient (soigneusement)

1. Le coût réel n'est pas le ×2 affiché

2. Les timeouts : la face cachée de l'autonomie

3. "Profond" ne veut pas dire "livrable"

4. Les garde-fous se déclenchent au moindre soupçon (et Anthropic a déjà dû s'excuser)

5. L'effet boîte noire

Comment je l'utilise concrètement

Verdict

Claude Code comme back-office : connecter Drive, Gmail et Trello pour piloter sa boîte

MCP chrome-devtools depuis WSL : piloter (et auto-lancer) une Chrome Windows

Claude Code Remote Control : reprendre ses sessions WSL depuis le téléphone