Anthropic redéploie Claude Fable 5 avec des garde-fous renforcés

Le 1er juillet 2026, Anthropic a annoncé le retour mondial de Claude Fable 5, son modèle le plus avancé destiné au grand public. Lancé le 9 juin aux côtés de Mythos 5, Fable 5 avait été suspendu seulement trois jours plus tard, le 12 juin, à la suite de contrôles à l’exportation imposés par le gouvernement américain pour des raisons de sécurité nationale liées aux risques cybernétiques.

Ces restrictions avaient été déclenchées après la découverte par des chercheurs d’Amazon d’un contournement des garde-fous de Fable 5, permettant d’identifier des vulnérabilités logicielles. Après analyse approfondie, les autorités ont levé les contrôles le 30 juin, constatant que la technique n’exposait pas de capacités offensives uniques à Mythos 5 et qu’elle relevait de travaux défensifs de routine.

Claude Fable 5 will be available again globally tomorrow.

After a series of productive conversations with the US government, we're redeploying the model with a new set of classifiers to target and block more cybersecurity tasks. In the near term, some routine tasks like coding…
— Anthropic (@AnthropicAI) July 1, 2026

Dans son annonce officielle, Anthropic détaille le déploiement de nouveaux classifieurs de sécurité spécifiquement entraînés pour bloquer ce type de contournement, avec une efficacité supérieure à 99 %. Ces systèmes ciblent les requêtes ambiguës ou dangereuses en cybersécurité tout en maintenant une marge de sécurité plus conservatrice. En cas de blocage, les utilisateurs sont notifiés et la requête est automatiquement redirigée vers le modèle Opus 4.8. Anthropic s’engage à affiner ces classifieurs dans les semaines à venir afin de réduire les faux positifs, notamment sur les tâches de codage et de débogage.

Points clés du redéploiement de Claude Fable 5

Chronologie
Lancement : 9 juin 2026
Suspension mondiale : 12 juin 2026 (contrôles à l’exportation américains)
Levée des restrictions : 30 juin 2026
Redéploiement : 1er juillet 2026

Disponibilité
Fable 5 est de nouveau accessible mondialement sur Claude.ai et l’API. Sur les plans Pro, Max et Team, il est inclus jusqu’à 50 % des limites d’utilisation jusqu’au 7 juillet, puis disponible uniquement via crédits.

Mesures de sécurité renforcées
Nouveau classifieur bloquant à plus de 99 % le contournement identifié par Amazon.
En cas de blocage : redirection automatique vers Opus 4.8.
Affinage en cours pour limiter les faux positifs sur le codage.

Initiatives plus larges
Anthropic travaille avec Amazon, Microsoft et Google sur un cadre commun d’évaluation des jailbreaks et renforce sa collaboration avec le gouvernement américain (accès pré-release, partage d’informations et recherche conjointe).

Concernant l’accès, Fable 5 est disponible dès aujourd’hui sur Claude.ai, l’API et les plateformes partenaires. Sur les plans Pro, Max et Team, il est inclus jusqu’à 50 % des limites d’utilisation hebdomadaires jusqu’au 7 juillet, puis accessible via crédits d’usage. Mythos 5, quant à lui, reste réservé aux partenaires de confiance du programme Glasswing.

Anthropic 1 — **Classifieurs de sécurité et marge de sécurité (« safety margin »)**
**(A)** Approche standard des safeguards : la limite du classifieur bloque les requêtes clairement dangereuses tout en laissant une marge de sécurité modérée.
**(B)** Approche renforcée de **Fable 5** : la marge de sécurité est volontairement élargie, ce qui permet de bloquer davantage de requêtes potentiellement risquées (même si certaines sont bénignes), au prix d’un plus grand nombre de faux positifs..

Anthropic 2 — **Interaction entre les différents types de jailbreaks et les classifieurs de sécurité de Fable 5**
**(C) Minor jailbreak** : Le jailbreak permet seulement de récupérer des comportements bénins situés dans la marge de sécurité.
**(D) Narrow harmful jailbreak** : Le jailbreak contourne le classifieur pour accéder à un ensemble limité de comportements nuisibles.
**(E) Universal jailbreak** : Le jailbreak le plus grave, qui débloque une large gamme de comportements dangereux sans dégradation notable des capacités du modèle.

Parallèlement, Anthropic initie avec Amazon, Microsoft, Google et ses partenaires un cadre commun d’évaluation de la gravité des jailbreaks, tout en renforçant sa collaboration avec le gouvernement américain sur les tests de modèles et le partage d’informations. Ce retour marque un équilibre délicat entre innovation et sécurité dans un contexte réglementaire de plus en plus strict.

le1.mal'intelligence de l'information

Insight Publications

Related

Anthropic redéploie Claude Fable 5 avec des garde-fous renforcés

Related

Topics

Related Articles

A propos

Insight Publications

Dernières infos

S'abonner

le1.ma
l'intelligence de l'information