アドバイス13:「ベンチマーク」の結果にとらわれる必要はありません
以下は、GPT-5.2のベンチマークに関する情報をまとめた表です。

非常にざっくりいうと「とても高い性能」ということになりますが、今回はこのベンチマークについて解説したいわけではありません。逆に、我々が普段使いするにあたってどの生成AI(モデル)を活用するかを考える時、このようなベンチマークの結果に過度にとらわれる必要がないことを解説します。
そもそもベンチマークは何を測っているのか
生成AI領域におけるベンチマークとは、モデル(LLM)の性能を客観的に評価・比較するための、標準化されたテストのことです。
言い換えると、人間が受けるテストのAIバージョンです。
ベンチマークで比較することのメリットは、以下のとおりです。
- 客観的な比較が可能:異なる開発元(Google、OpenAI、Anthropicなど)のモデルを、同じ条件で比較できます。
- 得意分野の特定が可能:数学が得意、推論が強い、プログラミングが正確など、モデルごとの特性を把握できます。
- 進化した部分の可視化が可能:以前のモデルと比較して、どれだけ性能が向上したかを数値で証明できます。
ただ、ベンチマークにもリスクはあります。
例えば、ベンチマークの問題と解答が学習データに紛れ込んでしまった場合、そのようなデータを学習したLLMはベンチマークこそ高得点を記録しますが、実際の活用シーンではそのレベルの性能が発揮できない可能性があります(ベンチマークの汚染)。
薬剤師に身近な例えをすると、あらかじめその年の国家試験の問題と解答を丸暗記した学生が、国家試験で高得点を記録して合格するイメージです。出題された問題に関する知識は備わっている可能性がありますが、それ以外の知識を問われた時に期待された能力が発揮できない可能性があります。

最近は、基本的にどのモデルも優秀
最近のベンチマークの結果を見ていると、正直なところどのモデルも高性能で高いスコアを記録するため、以前ほど他のモデルとの差や進化が「ベンチマークからは」感じにくくなっています(性能は間違いなく向上しているのですが)。
普段から大規模なコーディングや複雑な推論を多用するのであれば、ベンチマークは十分参考になると思いますが、簡単な文章の要約や下書きの出力、あるいはシンプルなGAS用JavaScriptなどを出力してもらう程度であれば、2026年1月現在主流のLLMを使う分には、ベンチマークのスコアを気にする必要はないと思います。
それよりも重要なのは、本当に自分にとって使いやすいか、あるいは期待した通りの回答を出力してくれるのかどうかを、試してみることです。
まずは無料で試してみて、自分に合っていると思ったサービスがあれば積極的に活用すると良いでしょう。
私の普段使いは…
私は、以下のような用途で各種生成AIを使い分けています。
参考になりましたら幸いです。
ChatGPT
基本的にはChatGPTをメインで使っています。
基本的な情報収集から論文の理解を深める補助役まで、大体何でもこなしてくれて汎用性が高いです。
Gemini
Googleの各種サービスと連携する時や、画像生成をする場合はGeminiを使います。
それに加え、コンテキストウインドウ(一度に処理できる情報量)が大きいので、非常に文字数が多い文書ファイルなどを要約する時にも活用しています。
NotebookLM
中医協の資料や医療関連のニュースの内容、その他色々と役立つ情報などがあれば、その情報をPDFや画像などに変換し、NotebookLMにひととおり保存して参照できるようにしています。
RAGを活用したシステムのため回答の正確さが高く、それに加えてNotebookLM内で画像・音声・動画・勉強用資料・クイズなどのさまざまなコンテンツを作成できるので、便利です。
Claude
Claudeは文章が綺麗なので、ChatGPTで詳しい情報収集をした後に、その情報をもとに文章の下書きを手伝ってもらうことがあります。
そして個人的な意見ではありますが、Claudeの最大の特徴は高いコーディング性能のため、GAS用JavaScriptを記述してもらう時にも積極的に活用できそうです。

今回のアドバイスのまとめ
