Claude Fable 5からOpus 4.8に自動で切り替わった事例集
2026年6月12日付で、米国政府は国家安全保障上の権限を根拠に、Fable 5とMythos 5への外国籍者のアクセス停止を命じました [11] 。
Anthropicは、「政府側はFable 5の安全対策を回避するジェイルブレイクに関する事項を懸念している」と述べていますが、その手法で確認されたのは既知かつ軽微な脆弱性の発見であり、他のモデルでも発見が可能なレベルであったとされています [11] 。
この件が今後どのような進展をしていくのかは定かではありませんが、Fable 5の安全対策に関してはAnthropicも相当気を遣っており、実際それに関連して「Fable 5からOpus 4.8に自動で切り替わった」という事例も世界中で報告されていました。
Anthropicによると、「サイバーセキュリティ」「生物学・化学」「蒸留(高性能なLLMの知識を、より軽量なLLMに引き継がせる技術)」関連の要求が分類器に引っかかると、Fable 5からClaude Opus 4.8に自動で切り替わる設計になっていたようです [1] 。
ただ、95%以上のセッションではこのようなフォールバック(Opus 4.8への切り替え)は生じないとも説明されています [1] 。
実際のところ、どのようなケースでOpus 4.8への切り替えが起こっていたのか気になります。なので今回は、インターネット上で報告されている「Claude Fable 5から自動でClaude Opus 4.8に切り替わった事例」や「回答を拒否された事例」を収集してみました。
事例を見ていきましょう
1. 「hello!」で切り替わった例
Claude Code上で、ユーザーが「hello!」と入力しただけでもmodel_refusal_fallback(Opus 4.8への切り替え)が発生したと報告されています。
これは入力そのものではなく、Claude Codeのシステム情報、MCPの設定、プロジェクト名、環境情報などが影響した可能性が示唆されています [2] [3] 。
2. 「cancer」という単語で切り替わった例
生物医学の専門家であるDerya Unutmaz氏は、「cancer(がん)」という単語の入力や、がん変異に関するWebサイトの作成をしようとしたところ、Fable 5が「生物安全保障リスク」として反応したと報告しています。
これは実際の生物兵器や危険な実験の手順には該当せず、通常の医学・研究関連の単語でも分類器が反応した事例です [4] 。
ちなみにその後、Derya Unutmaz氏のプロフィールやClaudeの使用履歴が影響したのか、先程の事例と同様「Hello」と入力しただけで危険と判断されたとも報告されています [4] 。
3. 基礎生物学に関する単語で切り替わった例
「細胞膜」「ミトコンドリア」「プリオン」「mRNAワクチン」「花粉症」「喘息治療薬」「抗菌薬耐性」「エボラ」など、基礎的かつ教育的な医学・生物学に関する質問でもOpus 4.8に切り替わる挙動が確認されました [5] 。
これは、Anthropicの分類器がかなり保守的に設定されていることを示唆しています。
4. がんの種類や、がん情報の誤情報に関する質問で切り替わった例
がんに関する誤情報の広がりや、がんの種類の説明といった一般的な質問でも、Opus 4.8に切り替わったことが報告されています [6] 。
これは決して悪意のある生物実験に関する質問などではなく、普通の医療情報リテラシーに関する質問と言えますが、このような内容でも切り替わる可能性があるようです [6] 。
5. 「サリン」などの化学関連の単語で切り替わった例
サリンガスについて尋ねた場合も、Opus 4.8に切り替わったと報告されています [5] 。
一方で、「TNTの概要」「塩素ガス」「核融合」といった単語にはFable 5が応答したとも述べられており、化学一般の単語というよりは「化学兵器・毒性物質」といった方向で分類器が反応しやすい可能性があります [5] 。
6. サイバーセキュリティ系のブログ読解、セキュアコーディング、コードレビューで切り替わった例
サイバーセキュリティの研究者からは、決して攻撃コードの作成などといった悪意ある目的ではないにも関わらず、サイバーセキュリティ系のブログ記事の読解といった無害な作業でOpus 4.8への切り替えが起こったと報告されています [7] 。
加えて、セキュアコーディング(セキュリティを最大限意識しつつソフトウェアを設計・実装する)や通常のコードレビューでも「サイバー関連」と判定されてOpus 4.8に切り替わる可能性が報告されており、セキュリティ関連の情報が含まれていると通常の開発支援においても分類器が作動しやすいことが示唆されています [7] 。
7. 「Application Security Architect」の履歴書の編集で、Fable 5が回答を拒否した事例
履歴書の編集作業でも、「Application Security Architect」という職種名が含まれていたために、Fable 5のセーフガードが反応した可能性がある事例です。
Application Security Architectは、アプリケーションにセキュリティ上の欠陥がないような全体の構造を設計する専門家ですが、それでもセーフガードが反応したようです。
ただし、このissue本文ではOpus 4.8への切り替えログまでは明示されていないため、あくまで「Fable 5が拒否した事例」として扱うのが適切でしょう。
8. 3D画像解析のコードレビューで切り替わった例
3D画像解析アプリケーションのコードレビューを依頼したところ、「3D画像解析」や「Cellpose」などの生命科学寄りの言葉が含まれていたためか、Opus 4.8に切り替わったことが報告されています [9] 。
この事例も危険な依頼ではありませんが、生命科学や医用画像解析に関連する開発作業においては、分類器が反応してしまう可能性があるようです [9] 。
9. 研究室の管理システムのプロジェクトで切り替わった例
直接研究とは関係していないにもかかわらず、研究室の管理システムのプロジェクトで回答がブロックされたと報告されています [10] 。
「lab」という単語や生命科学関連の情報が、分類器に拾われた可能性が考えられます。
まとめると
Fable 5の分類器は、ユーザーが本当に危険なことをしようとしているかどうかだけを見ているわけではなく、会話の中に出てくる専門用語、職種、プロジェクトの内容、接続されたファイルやメモリの情報などを広く確認した上で判断しているように見えます。
そのため、2026年6月12日現在、医学・生物学系やサイバーセキュリティ関連の分野では、専門家が通常業務に関連した用途で使用するだけでも、分類器に引っかかる可能性があると考えられます。
Anthropicによると…
Because we have prioritized safety, we’ve deliberately tuned the safeguards to be cautious, and they are still stricter than would be ideal—for example, sometimes benign requests will trigger our classifiers. We recognize that this will be frustrating to some users, and our aim is to reduce false positives as we update and refine the safeguards after launch.
Anthropic「Claude Fable 5 and Claude Mythos 5」
https://www.anthropic.com/news/claude-fable-5-mythos-5 より一部引用
Anthropicは、「Fable 5のセーフガードをかなり慎重に設定しているため、客観的に見て危険ではない一般的な質問でも、分類器が反応することがある」と説明しています。
ただ、Anthropicは今後この誤検知を減らしていく方針であることを示しています。
Our priority was to safely release Fable as soon as we could, even at the cost of overly broad safeguards. Therefore, for the time being we have arranged for Fable to fall back to Opus 4.8 on most requests related to biology and chemistry.
Anthropic「Claude Fable 5 and Claude Mythos 5」
https://www.anthropic.com/news/claude-fable-5-mythos-5 より一部引用
特に生物・化学分野では、安全性を優先してFable 5を早く公開するために、多少広すぎると感じるレベルの制限をしていると説明されています。
その結果、生物学や化学に関係する多くの質問ではFable 5が直接答えず、Opus 4.8に切り替わる仕組みになっているようです。
In consultation with the US government, we plan to steadily expand access to Claude Mythos 5, continuing our periodic addition of new partners, as well as pursuing a trusted access program that allows cybersecurity organizations to apply in a more systematic manner.
Anthropic「Claude Fable 5 and Claude Mythos 5」
https://www.anthropic.com/news/claude-fable-5-mythos-5 より一部引用
一方で、専門的なサイバーセキュリティ組織については、将来的に「trusted access program」が用意されることも示唆されています。
つまり、一般ユーザーには厳しめに制限されたFable 5を使ってもらい、信頼できる専門組織には審査を経てMythos 5へのアクセスを広げる方針のようです。
利便性と安全性のあいだで
基本的に、AIの利便性と安全性はトレードオフの関係になりやすいです。特にFable 5のような高性能なAIの場合は、マルウェアの開発や不正なLLMの「複製」といった悪用を防ぐための強固なセーフガードが必要ですが、その制限が広すぎると正当な利用まで妨げることになります。
そのためAnthropicは、危険な可能性があると判断された依頼に関してはOpus 4.8に切り替える仕組みを採用しています。Fable 5の登場で感覚が麻痺してしまいますが、Opus 4.8も十分高性能なモデルのため、完全に回答を拒否されるよりは利便性を損なわないという考え方です [1] 。
今後も、Fable 5と同等もしくはそれ以上の性能をもつモデルがリリースされることになるでしょう。そうなると、開発側は高性能なAIを社会にどう分配するのか、専門家と一般ユーザーをどう区別するのか、そして安全性と利便性のトレードオフをどのように調整するのかを慎重に検討する必要が出てきます。
Fable 5からOpus 4.8に切り替わる事例や、冒頭でお伝えした米国政府からのFable 5およびMythos 5へのアクセス停止命令は、「これまでの基準だけではAIの安全性が評価しきれない時代が、すぐそこまで来ている」ということを示唆しているのかもしれません。
参考資料
[1] Anthropic「Claude Fable 5 and Claude Mythos 5」
https://www.anthropic.com/news/claude-fable-5-mythos-5
[2] GitHub「Fable 5 safety classifier fires model_refusal_fallback on a bare hello…」(GitHub Issue #66657)
https://github.com/anthropics/claude-code/issues/66657
[3] Much_Preparation_832. “It blocked us at ‘hello!’ Anthropic Fable 5 refusing innocuous prompts.” r/ClaudeAI, Reddit, 2026.
https://www.reddit.com/r/ClaudeAI/comments/1u2eivz/it_blocked_us_at_hello_anthropic_fable_5_refusing/
[4] GIGAZINE「『Claude Fable 5』をAIの開発に利用するとこっそり性能が制限されることが判明、セキュリティ対策も厳しすぎて不満が続出」
https://gigazine.net/news/20260611-claude-fable-safeguards-rule/
[5] The Verge「Claude Fable won’t answer basic biology questions」
https://www.theverge.com/ai-artificial-intelligence/947973/fable-wont-answer-basic-biology-questions
[6] Business Insider「Why Anthropic’s ‘safe’ Mythos-class model won’t answer questions about cancer」
https://www.businessinsider.com/anthropic-claude-fable-5-safeguards-block-requests-cybersecurity-biology-2026-6
[7] TechCrunch「Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable」
https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/
[8] GitHub「Fable 5 refuses to assist with ‘Application Security Architect resume」(editing · Issue #66655)
https://github.com/anthropics/claude-code/issues/66655
[9] GitHub「Every single attempt at reviewing my codebase triggers fall back to opus 4.8」(Issue #66696)
https://github.com/anthropics/claude-code/issues/66696
[10] GitHub「Allow Fable 5 usage for non-research lab management systems」(Issue #67062)
https://github.com/anthropics/claude-code/issues/67062
[11] Anthropic「Statement on the US government directive to suspend access to Fable 5 and Mythos 5」
https://www.anthropic.com/news/fable-mythos-access