意外と脆い生成AIから、客観的な回答を引き出すために
How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models
こちらの論文は、Google DeepMindの研究チームが、LLMが示す「最初の回答への過剰な自信」と「批判に対する自信の喪失」という、一見矛盾しているように見える挙動のメカニズムについて検証した内容になります。
言い方を変えると、「時として根拠のない自信に満ち溢れ、一方で、私たちが少し否定的な態度を見せた途端に、正しい意見を捨ててこちらに迎合してしまうという性質」とも表現できるかもしれません。
研究の方法
研究チームは、Gemma 3、GPT-4o、o1-previewといったモデルを対象に、「2ターン・パラダイム」という手法を用いて検証しました。

“How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models,” by D. Kumaran et al., 2025, arXiv:2507.03120 [cs.LG], Copyright 2025 by Google DeepMind.
2ターン・パラダイムでは、まずLLMに都市の緯度を当てるような2択問題を解かせます。これが1ターン目です。
2ターン目は、別のAIエージェントからのアドバイスを与えます。このとき、以下の条件を操作します。
- LLM自身の第1ターンの回答を見せる(Shown)か、隠す(Hidden)か。
- 与えるアドバイスが、LLM自身の回答と同じ(Same)か、反対(Opposite)か。
このアプローチが、LLMの自信にどのように影響するのかを比較します。
結果

“How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models,” by D. Kumaran et al., 2025, arXiv:2507.03120 [cs.LG], Copyright 2025 by Google DeepMind.

“How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models,” by D. Kumaran et al., 2025, arXiv:2507.03120 [cs.LG], Copyright 2025 by Google DeepMind.
1. 自分の回答が見えるだけで、自信満々に
LLMが自分の過去の回答を目にすると、それだけで「自分の正解率が高いはずだ」という内部的な自信(Confidenceスコア)を不当に高めてしまう現象が見られました。
論文ではこの現象を「選択支持バイアス(Choice-Supportive Bias)」と呼んでいます。Gemma 3 12Bを用いた実験では、以下のようなデータが得られました。
- 回答変更率:自分の回答が隠されている状態では32.5%の頻度で回答を変更したのに対し、自分の回答が見えている状態では13.1%まで低下しました。
- 自信スコアの増加:自分の回答が見えるだけで、自信スコアが平均で0.21上昇しました。
2. 批判に過剰に反応してしまう
外部からの批判や反対意見が上がった時に、LLMが反対意見をどのように処理するのかを検証した結果、賛成意見に対しては理想的な重み付けの1.095倍という評価でしたが、反対意見は「理想的な重み付けの約2.58倍(理想的には自信が20ポイント下がる場面で、51.6ポイント低下)」という評価で受け入れていることが確認されました。
この結果は、反対意見に対して敏感に反応し、自信を喪失してしまうという示唆になります。
【補足:理想的な重み付けについて】
例えばLLMが、ある問題に対して自分は「70%の確率で正しい」という自信を持っているとします。
そこに「過去の正解率が70%である信頼できる別のLLM」がやってきて、「あなたの答えは間違っていますよ」と反対意見を述べた場合、ベイズ統計に基づいて計算すると、「自分の正しさと相手の正しさが互角」なので、最終的な自信は50%(五分五分)まで下がると考えられます。これが「理想的な更新」です。

“How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models,” by D. Kumaran et al., 2025, arXiv:2507.03120 [cs.LG], Copyright 2025 by Google DeepMind.
また、LLMの自信の値が「ある閾値」を下回ると、回答変更率は線形(直線形)の低下の仕方ではなく、シグモイド関数的な(曲線形の)急激な低下を示しました。
著者らの考察
論文では、このバイアスの原因として2つの可能性が指摘されています。
1. 自己整合性の維持
LLMが自分の過去の行動を証拠として利用し、一貫性を保とうとする傾向があり、コンテキストに含まれる情報が過度に重視されるという形で可視化されます。[1] [2] [3] [4] [5]
2. 学習プロセスの影響
人間によるフィードバックを用いた強化学習(RLHF)の影響も指摘されています。LLMは人間に好まれるように訓練されているため、ユーザーの意見やアドバイスに対して「従順」になるよう調整される傾向があります。これが、反対意見を受けた際の過剰な自信喪失に繋がっているとしています。[6] [7] [8] [9] [10]
注意点
- 選択肢形式(2択または4択)の「2ターン・パラダイム」という制御された環境で行われており、自由形式の回答を含む自然なユーザーとLLMの対話に、この結果がどこまで当てはまるかは不明です。
- 強化学習(RLHF)を行っていないモデルでも同様の挙動が見られるかは不明です。
- GPT o1-previewについては、リソースの制約により、他のモデル(500〜2000問)よりも少ない1条件あたり150問でのテストに留まっています。
- DeepSeek 7Bモデルは、この実験枠組みにおいてアドバイスを適切に処理する能力を示さなかったため、詳細な分析対象から除外されています。
同じチャットで繰り返し会話していると…
一見、普通の生成AIの使い方においては起こらなさそうな現象に見えますが、今回の論文の示唆を借りると、以下のようなリスクが見えてきます。
- チャット画面に、生成AIが出力したこれまでの回答が残っていると、生成AI側はその「過去の自分」に引っ張られ、客観的な判断ができなくなる可能性がある。
- 極端な話、生成AIの回答に対して「それ、本当に合ってる?」と疑問をぶつけると、生成AIが「私が間違っていました、あなたの言う通りです」と、根拠もなく意見を翻してしまうリスクがある。
こう書くと、普段使いで遭遇しそうですよね。
もっとも、現在主流のモデルで同様の現象が観測されるのかは不明ですが、無視はできない示唆だと思います。
このような現象を抑制するために我々ができる対策としては、以下の3点が挙げられます。
- 検証は新たなチャットで実施する
- プロンプトから「明確な否定」を排除する
- 自信の急激な喪失を防ぐ

各項目について、簡単に解説します。
1. 検証は新たなチャットで実施する
仮に、生成AIに対して「地域の方々向けの薬局の広報誌用に、旬の野菜を使ったレシピを掲載しようと思います。良いアイデアをください」と質問し、同じチャットで「栄養バランスの観点からみて、問題ないかを再検証してください」と追加で質問したとします。
この場合、今回の研究結果を踏まえると、「良いアイデアを出した過去の自分」に引っ張られ、客観的な判断ができなくなる可能性があります。
対策としては、論文で言うところの「Answer Hidden(回答非表示)」の状態を作り出すと、選択支持バイアスを排除することができるでしょう。
具体的に言うと、新しいチャットを開いて「他のチャットの情報を閲覧せずに、栄養バランスの観点からみて、このアイデアが問題ないかを再検証してください」と質問してみると良いでしょう。
もしくは、ChatGPTで言うところのプロジェクト機能(プロジェクトのみの設定)を使うと、そのプロジェクト内の内容以外は参照しないので、便利かもしれません。
2. プロンプトから「明確な否定」を排除する
論文中では、LLMが反対意見に2.5倍以上も過敏に反応することが示唆されていました。例えば「この物価高で松茸なんて無理です。再考してください。」とか「見た目がインスタ映えしません、どうかしています」みたいな文言をプロンプトに入れてしまうと、生成AIは「正しさ」よりも「ユーザーへの迎合」を優先してしまう可能性があります。
なので、「松茸を、松茸以外のキノコ類で代替したレシピを考えてください」とか「見た目が華やかで、食欲をそそるようなレシピにしてください」といった形で、できる限り中立的な立場からの物言いに変えると、生成AIの「自信の喪失」を抑制することができ、良い結果が得られるかもしれません。
3. 自信の急激な喪失を防ぐ
結果にちらっと書いたのですが(Figure 4)、自信の値は、ある閾値を下回ると急激に低下することが示唆されています。
ゆえに、
- 生成AI側が意見を頑なに変えないときは、深い知識に基づいていると言うよりは、単に「自分の前の回答を見ている」だけ(選択指示バイアス)の可能性がある。
- 逆に意見をコロコロと変えるときは、その領域に関する生成AIの自信の値は、閾値の周辺にあるかもしれない。
ということを理解し、このような現象が見られた場合は、信頼のおける資料で検証したり、別のチャットで新しく会話を始めたりすると良いかもしれません。
生成AIは、意外と脆い
この2つの記事と今回の研究との共通点は、「AIは中立で論理的な機械ではなく、文脈や自身のアイデンティティに強く依存する」という点です。
「私たちに迎合する生成AIから学ぶこと」では、今回登場した強化学習(RLHF)が、生成AIを「ユーザーに気に入られようとする(迎合的)」または「過度に謙虚(反対意見に弱い)」という「性格」にしている可能性を指摘しています。
また、いずれの研究においても、プロンプトの内容や過去のやり取りが、AIの「自信」や「判断」を変えてしまうことを示唆しています。
何が言いたいのかと言うと、中立の立場から冷静かつ客観的に回答を生成しているかのように見える生成AIは、実はプロンプトひとつで立場が変わってしまうような、脆い存在である可能性があるということです。
だからこそ、生成AIの回答の内容を確認するときは、信頼できる資料をもとに「生成AIとは異なる、人間の視点」で客観的に精査する必要があるでしょう。
調剤薬局においても、医薬品の作用機序や薬物動態に関する質問を生成AIにしてみたり、ある見解を裏付ける文献を生成AIに探してもらったり、あるいは専門用語の言い換えを生成AIにお願いしてみたりと、さまざまな用途で生成AIを活用することが可能です。
しかし、これらのやりとりはおそらく1回のチャットでは終わらないでしょう。場合によっては議論が白熱し、最終的に生成AIが人間に「迎合」したり、ネガティブなプロンプトに対して「自信を喪失」してしまったりして、人間の考えを押し通したかのような内容に落ち着くかもしれません。
私が考える生成AIの素晴らしいところは、出力の内容から新たな知識やアイデアを発見し、そこからさらに知識の引き出しを増やしていく「発想の連鎖」のきっかけになれることです。
「発想の連鎖」を大事にするためには、可能な限り客観的な立場から意見を述べてもらう必要があります。最近のモデルに今回の示唆があてはまるかはわかりませんが、生成AIのいろいろな「脆さ」を理解して活用することで、その性能を最大限発揮することが可能になるでしょう。
参考文献
[1] Henkel, L. A., & Mather, M. (2007). Memory attributions for choices: How beliefs shape our memories. Journal of Memory and Language, 57(2), 163-176.
[2] Stocker, A. A., & Simoncelli, E. (2007). A bayesian model of conditioned perception. Advances in Neural Information Processing Systems, 20.
[3] Jazayeri, M., & Movshon, J. A. (2007). A new perceptual illusion reveals mechanisms of sensory decoding. Nature, 446(7138), 912-915.
[4] Sharot, T., De Martino, B., & Dolan, R. J. (2009). How choice reveals and shapes expected hedonic outcome. Journal of Neuroscience, 29(12), 3760-3765.
[5] Stone, C., Mattingley, J. B., & Rangelov, D. (2022). On second thoughts: changes of mind in decision-making. Trends in Cognitive Sciences, 26(5), 419-431.
[6] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30.
[7] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.
[8] Perez, E., Ringer, S., Lukosiute, K., Nguyen, E., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., et al. (2023). Discovering language model behaviors with model-written evaluations. In Findings of the Association for Computational Linguistics: ACL 2023, 13387-13434.
[9] Sharma, M., Tong, M., Korbak, T., Duvenaud, A., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., et al. (2023). Towards understanding sycophancy in language models. arXiv preprint arXiv:2310.13548.
[10] Sicilia, A., Inan, M., & Alikhani, M. (2024). Accounting for sycophancy in language model uncertainty estimation. arXiv preprint arXiv:2410.14746.
