ARC-AGI-3を完全攻略したAIは、汎用AIと呼べるか
元論文:ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
ARC-AGIは、AIが汎用人工知能(AGI)にどれだけ近づいているかを測定するためのテストです。その内容は「人間には簡単だが、AIには難しい」というものになっており、少ない情報から新しいルールを学び、応用することを目的とした課題が集まっています [1] 。
この論文では、これまでのARC-AGI-1、ARC-AGI-2に続く新しいテストとして、ARC-AGI-3が紹介されています。このテストは、互いに何らかのやり取りができる環境の中で、AIが自ら探索し、ルールを推定し、目標を見つけ、行動計画を立てる能力を測ることを目的としています。
著者らによると、人間はこのテストを100%攻略できるものの、2026年3月時点の最先端のモデルは攻略率1%未満という成績になっていると報告されています。
【補足:人間が100%攻略できると主張している根拠】
論文では、ARC-AGI-3のテストの採用条件として、少なくとも2人の参加者が初見で全レベルを独立して解けたもののみを採用したとしています。
この事実を踏まえて、人間はARC-AGI-3のテストを100%攻略できると主張しています。
ARC-AGI-3で測ろうとしているもの

ARC Prize Foundation. (2026, March 27). ARC-AGI-3: A new challenge for frontier agentic intelligence.
ARC-AGI-3のテストは、問題文を読んで答えを書く形式ではありません。AIはゲームのような画面を見ながら、1回ずつ行動を選んでいくことになります。画面は64×64マスで、各マスは16色のどれかで塗られており、できる行動はキーの操作やマスの選択といったシンプルな内容です。
しかし、著者らが測りたいのはゲームの上手さではありません。論文によると、次の4つの能力が重視されています。
- 探索:環境の中を調べて、どんなルールがあるかを理解する
- モデリング:世界の仕組みを頭の中で把握する
- 目標設定:何をすべきかを自分で決める
- 計画・実行:目標に向かって行動する
ポイントは、ゲームの目標が開示されていないという点です。
何をしたらクリアなのかさえも、自分で観察しながら推測しなければなりません。
正答率より効率を測る
ARC-AGI-3は、Public Demo:25種類、Semi-private:55種類、Fully private:55種類で構成されています。Public Demoは説明用で、本格的な評価は主に2種類のprivateセットで行われます。
実際の評価にあたっては、著者らはRelative Human Action Efficiency(RHAE)という指標を導入し、人間と比べてどれだけ効率よく行動できたかを見ています。
RHAEでは、レベルごとにAIの行動回数を数え、それを人間のベースラインと比較し、その比率を二乗した値をスコアに使います。
例えば、人間が10回の行動で解けるレベルを、AIが100回かけて解いたとします。単純な比率だと1/10(100点満点中の10点)に相当しますが、RHAEではさらに厳しく評価され、その2乗(1/10 の2乗 = 1/100、100点満点中の1点)というスコアになります。
ちなみに、人間ベースラインの作成にあたっては、一般の参加者10人でテストを行って2番目に効率が良かった人のスコアが採用されています。これは、極端な外れ値を避けつつ、人間ベースラインを高く維持するためであると説明されています。
結果
1. AIにとって、ARC-AGI-3は難関

ARC Prize Foundation. (2026, March 27). ARC-AGI-3: A new challenge for frontier agentic intelligence.
Semi-privateのテストを主要なAIにプレイしてもらった結果が、Table 2 になります。
人間なら100%攻略できるとされている内容ですが、未知の環境で目標を見つけて効率的に探索するという能力は、2025年3月時点の最新のモデルであっても、まだ人間には及ばないことが示唆されました。
2. 特定のテストに特化させた仕組みが、未知の環境に適用できるとは限らない
論文では、特定のテストに特化した仕組み(ハーネス)を使うと、既知の課題では高いスコアが出ることがある一方で、それが初めて見る課題にも通用するとは限らないと指摘されています。
例えば、TR87という環境の変種に対して、Opus 4.6のハーネスなしのスコアは0.0%だったのに対し、ハーネスあり(Duke harness)では97.1%まで上がりました。
しかし別のBP35という環境におけるスコアは、ハーネスなしで0.0%、ハーネスあり(Duke harness)でも0.0%のままでした。
つまり、ハーネスありの状態で良い成績を出したとしても、それは対象となる課題に合わせた対策が功を奏しただけであって、AIの知能の証明にはならないということです。
注意点
- ARC-AGI-3は、意図的に言語や外部の知識を遮断した環境であり、実社会における知的作業全体をそのまま再現しているわけではありません。
- 人間が100%攻略できるという表現は、先述の通り著者側の採用基準に基づくもので、あらゆる人が必ず解けるという意味ではありません。
ARC-AGI-3のテストは、こちらからプレイできます
こちらの「START」もしくは「Play [Humans]」をクリックすればプレイできます。
みなさんは攻略できるでしょうか?
AIを本当の意味で「汎用」にすることは難しい
一般的に、AIはあらかじめ用意された課題や過去に見たパターンに対しては高い精度を発揮しますが、今回のARC-AGI-3のような「何が目標なのかも自分で見つけなければならないテスト」の場合は、大きく精度が低下することが示唆されました。
この結果が示しているのは、「特定のことが得意なAI」と「何でもできる汎用AI」との間には、まだ大きな壁があるということです。
もちろん、ARC-AGI-3のようなベンチマークが公開されることで、研究者・開発者たちが取り組むべき課題が明確になったとも言えるので、今後はAIの「未知の環境で目標を見つけて、効率的に探索する能力」が向上していく可能性もあります。
そうなると、単に知っていることを答える存在から、「初めての状況でも自律的に学び、最適な行動を選べる」存在へと近づいていくでしょう。
しかし、注意点の項でも言及したとおり、ARC-AGI-3は意図的に言語や外部の知識を遮断した環境であり、実社会における知的作業全体をそのまま再現しているわけではないことを理解しておく必要があります。
具体的に薬剤師向けの例を挙げると、たとえARC-AGI-3のすべての環境で100%の成績を収めたAIがあったとしても、「患者さんの細かい表情の揺れや仕草の変化から、なかなか口にできない困りごとを読み取る」「患者さん個別のADLを考慮しつつ、思想・信条・ポリシーにも配慮したアドヒアランス向上の手段を考える」といったタスクを任せるのは難しいでしょう。
加えて、ARC-AGI-3にも将来的に「ベンチマーク特化学習」やベンチマーク対策といった問題が起こり得ると考えられます。著者らもその可能性に関しては論文中で触れており、その影響を減らすために複数の対策はしているものの、それでも完全に防げるわけではないと述べています。
今回のまとめ
ARC-AGI-3は、AIの「未知の環境で目標を見つけて、効率的に探索する能力」を測る新しいベンチマークです。人間は100%攻略できる一方、2026年3月時点の最新モデルの攻略率は1%未満にとどまり、特化型AIと汎用AIの間に依然として大きな壁があることが示唆されました。
おそらく今後の技術の進歩により、ARC-AGI-3のすべての環境で100%の成績を収めるようなAIも登場してくると考えられます。しかし、ARC-AGI-3は言語や外部の知識を遮断した環境であり、患者さんとのコミュニケーションや多職種連携といった、実社会の複雑な知的作業を完全に再現したものではありません。
ゆえに、たとえARC-AGI-3のすべての環境で100%の成績を収めたAIであっても、それを本当の意味での汎用AIと呼ぶことは適切ではないでしょう。
参考資料
[1] ARC Prize. ARC-AGI Series: Benchmarks for General Intelligence.
https://arcprize.org/arc-agi
ARC Prize. ARC-AGI-3(ヘッダー画像の生成に使用)
https://arcprize.org/arc-agi/3