医療の現場では、NotebookLMをどう位置づけるべきか

元論文:Enhancing pancreatic cancer staging with large language models: the role of retrieval-augmented generation – Radiological Physics and Technology

皆様は、NotebookLMなどに搭載されている「RAG」をご存知でしょうか。
簡単に説明すると、以下のようなプロセスで回答を生成するシステムです。

  1. ユーザーからの質問の受け取りと、意味の理解
    まずはユーザーのプロンプトを受け取り、その内容を理解します。
  2. 情報検索と前処理
    主にRAGシステム側が、
    質問に関連する情報を指定したウェブページ、あらかじめ提示された知識(資料)、データベースなどの外部データソースから検索します。取得された情報は色々と前処理が行われ、生成AIが利用しやすい形式に整形されます。
  3. 根拠に基づく生成
    検索で得られた情報と元の質問を組み合わせて、質問に対する適切で文脈に沿った回答を作成します。

簡潔にまとめると、ユーザーが予め提示した資料に基づいて回答を生成してくれる仕組みです。

そして、今回の研究はそのRAGに関する内容です。
RAGを備えた大規模言語モデル(以下、LLM)が、本当にRAGなしのLLMより優れた回答を生成できるのかを、膵臓がんの進行度(ステージ)を判定するタスクで検証しています。

研究の方法

1. 比較条件

著者らは、膵臓がんのCT所見に基づく進行度の判定の正確さを、以下の3つの条件で比較しています。
また、ここで与えられている外部知識は、「日本膵臓学会の膵癌取扱い規約第8版を要約した論文のうち、ステージ判定に関連する部分」です。

  • 条件1. NotebookLMに信頼できる外部知識を与えて使う
    必要な情報を提示された外部資料から取り出して、それを踏まえて回答する、RAGありの設定です。なお、研究時点におけるNotebookLMのモデルはGemini 2.0 Flashです。
  • 条件2. Gemini 2.0 Flashに、同じ外部知識を丸ごとプロンプトに入れる
    外部知識自体は与えていますが、RAGの仕組みは活用されていません。
  • 条件3. Gemini 2.0 Flashに外部知識を与えない
    モデルがもともと持つ知識だけで答えさせる設定です。

特に、条件1. と条件2. の比較がポイントです。
NotebookLMに信頼できる外部知識を与えて使う場合は、主にシステム側が質問の内容に応じて、外部資料の中から関係のある部分を検索・抽出してから回答を生成します。つまり、毎回その質問に必要な根拠をシステム側が取り出して、それを踏まえて答える仕組みです。

一方で、Gemini 2.0 Flashに同じ外部知識を丸ごとプロンプトに入れる場合は、資料全体を最初からまとめて見せているだけで、RAGのようにシステム側が必要箇所を選んで検索する工程がありません。そのため、情報が多いと重要な部分が埋もれやすく、LLMがどこを根拠にすべきか迷いやすくなります。

2. 判定・評価

今回の研究で使われたのは、架空の膵臓がん患者さん100例分のCT検査結果です。これらは、CT画像の読影を専門とする放射線科のDr. らが所見と正解ラベルを一から作成し、さらに複数の専門家がその内容を確認・チェックしています。

実際に判定させた項目は、以下の5つです。

  • 局所進展(T分類で評価):腫瘍が周囲の血管や臓器にどこまで浸潤しているか
  • T分類:腫瘍の大きさと周囲の組織への浸潤の程度
  • N分類:リンパ節転移の有無とその数
  • M分類:遠隔転移の有無
  • 切除可能性:主に血管への浸潤と転移の有無に基づく手術の適応の評価

評価に当たっては、上記5点がすべて正しかった場合にのみ、その症例に関しては「正解」と判定されます。

結果

1. NotebookLMが最も高い精度を記録した

全体の精度は、以下のようになりました。

  • 条件1. NotebookLM:70%
  • 条件2. Gemini 2.0 Flash(外部知識あり):38%
  • 条件3. Gemini 2.0 Flash(外部知識なし):35%

条件1. と条件2. を比較すると、同じ外部知識を与えても、資料全体の内容を貼り付けるだけでは精度がほとんど上がらなかったことがわかります。

つまり、通常の生成AIに資料を渡せば回答の正確性が上がるとは断定できず、必要な資料の必要な箇所を、その場で適切に取り出して使える仕組みが重要であることを示しています。

TNM分類全体でもNotebookLMの成績が優れており、特にT因子やN因子のような複雑な分析が必要な部分で改善が目立ちました。一方、M因子に関してはどの条件も比較的高精度で、タスクの性質によってRAGの効果が異なることも示唆されました。

2. 全体的に、「実際より進行している」傾向の誤りが目立った

T分類に関しては、NotebookLMでもT3(膵外進展あるも、腹腔動脈もしくは上腸間膜動脈に及ばない)の症例をT4(腫瘍浸潤が腹腔動脈もしくは上腸間膜動脈に及ぶ)と判定してしまった例が12例あった一方、T3をT2(膵内限局、2cm超)以下と判定してしまった例は2例にとどまりました。

切除可能性の評価では、本来は手術で切り取れる「R(切除可能)」と判定されるべき症例が、「BR(切除可能境界)」と評価されたのは1例だったのに対し、さらに厳しい「UR(切除不可能)」と評価されてしまったケースが7例にのぼりました。
また、「BR」と判定されるべき症例が誤って分類された3例は、すべて「UR」と判定されていました。逆に、本来「UR(切除不可能)」と判定されるべき症例が過小評価されたのは3例(うち2例がR、1例がBR)でした。

つまり、「実際より手術が難しい」方向への誤りが目立つという傾向が読み取れます。これは一見すると「安全性を重視した評価」のように見えるかもしれませんが、手術できるはずの患者さんが切除不可能と判定されてしまうと、本来受けられたはずの治療の機会を逃すことにつながります。

3. NotebookLMは、正しい情報を取得することはできても、その後の解釈を誤る可能性があった

論文では、NotebookLMの「資料から、関連性の高い正しい情報をどれだけ正確に取得できたかを示す割合(retrieval accuracy)」は高水準であったことが述べられていますが、それでも全体の正答率は70%でした。
これは、正しい情報を取り出せても、その情報の解釈をする段階で間違うことがあるということを示唆しています。

注意点

  • 架空の症例であることに注意が必要です。今回用いられた所見は、実際の現場で起こり得る曖昧さや情報の欠落が少ない、きれいな条件です。したがって、この精度は現実世界の臨床現場における性能ではなく、上限に近い推定値とみるべきです。
  • この研究はNotebookLMでの検証です。他のRAG構成で同様の結果が得られるとは限りません。
  • 他の外部知識や情報源、他の疾患においても同様の結果が得られるかは未検証です。

NotebookLMは、人間に対して根拠を提示する能力が高い

今回の論文の示唆を見てみると、NotebookLMに重要な判断を代行させるのは難しいと考えられます。確かに通常のGeminiを活用するときと比較すると精度が上がるかもしれませんが、かといって人間の介入無しで全てを任せられる水準とは言えません。

ただ、資料中から比較的高い精度で必要な情報を取得できていたことを踏まえると、人間に対して根拠を提示する補助ツールとしては、有用である可能性が高いと考えられます。
実際に回答の内容が正しいかどうかを検証するにあたって、その効率を大きく上げてくれるでしょう。

回答の精度を上げるなら…

一般的に、RAGの回答の精度を左右する要因として「資料の切り分け方(チャンクの分割)」と「補足情報の付け方(メタデータ付与)」が挙げられます。

RAGに限らず、生成AIは分量の多い資料をそのまま丸ごと読み込むのではなく、扱いやすい大きさに切り分けた情報のかたまりをもとに、必要な情報を探し出して参照しています。
そのため、この切り分け方に問題があったり、必要な補足情報が欠けていたりすると、的外れな回答が返ってくる原因になります [1] 。

例えば切り分け方に関して、ひとつの情報のかたまりが大きすぎると余計な情報(ノイズ)が混ざりすぎてしまい、小さすぎると前後のつながりが途切れて内容の誤解につながります [2] 。
また、資料の見出しと本文が別々に切り分けられてしまうと、生成AI側は「どの話題に関する記述なのか」を取り違えやすくなるでしょう [3] 。

ゆえに、実際にNotebookLMを活用するにあたっては、以下の点に気を付けておくと良いかもしれません。

1. 1つのノートブックに詰め込みすぎない

NotebookLMでは実際に使う資料を個別に選択できますが、だからといって何でも一冊に入れればよいわけではありません。

例えば、調剤薬局でNotebookLMを活用する場合に「業務マニュアル」「医薬品相互作用」「インシデント・アクシデント報告」「いただいたご意見」などを単一のノートで一元管理したくなりますが、あえてノートブックを目的別に分けることで、より安全に運用できるかもしれません。

2. 1ファイル1テーマを意識する

NotebookLMは、Difyのようにチャンクパラメータを直接変更できる設計ではないため、アップロード前の資料構成そのものが重要になります。

ゆえに、診療報酬改定資料のPDFを丸ごと1本で入れるより、章単位でPDFを区切ったり、もしくはテーマ単位(調剤基本料、薬学管理料、など)で整理しておくほうが、NotebookLMも扱いやすいでしょう。
実際、人間側としてもそのほうが扱いやすい場面が多いはずです。

3. ファイル名や文書冒頭に補足情報を埋め込む

例えば、「診療報酬改定_調剤_調剤基本料_2026年2月」といった形で、ファイル名を見たときに「何の資料でいつの版なのか」が分かるようにしたり、文書冒頭に「文書種別」「適用範囲」「改訂日」「版数」を明記したりすることで、AI側が回答の根拠を示しやすくなったり、膨大な資料の中から必要な箇所を正確に絞り込みやすくなったりすることが報告されています [1] 。

ゆえに、NotebookLMにファイルをアップロードする際には、ファイル名にも気を配ったほうが良い出力が得られるかもしれません。

画像
不適切な例

…このようなことにならないよう、注意しましょう。

今回のまとめ

今回の論文は、膵臓がんの進行度を判断するというタスクにおいて、NotebookLMのようなRAGを備えたシステムが、同じ資料を渡しただけの通常の生成AIよりも高い精度を記録したことを報告しています。
つまり、単に資料を提示するだけでは不十分で、必要な情報を的確に探し出して参照する仕組み(RAG)そのものが有効に機能したことが示唆されました。

一方で、根拠となる資料を正しく参照できていても、最終的な判断の段階で誤ってしまう可能性も指摘されています。
回答の精度を上げるためのアプローチとして、「1つのノートブックに詰め込みすぎない」「1ファイル1テーマで」「ファイル名や文書冒頭に補足情報を埋め込む」ことがある程度有効ですが、それでもNotebookLMは、人間がより丁寧に情報を確認するための補助ツールとして位置づけるのが適切でしょう。​​​​​​​​​​​​​​​​

コメントを残す

薬剤師のためのAIノートをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む