「日本語版医療特化型LLM」に関する報告を見てみましょう

情報元(ニュースリリース):医療現場の事務作業を支援する高性能な日本語LLMを開発しました | ニュース | NEDO

NEDOが推進した「AIの安全性確保に関する研究開発・検証等の推進事業/日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」(以下、本事業)において、連名機関10者は、医療機関のオンプレミス環境または医療機関が管理する国内クラウド環境などの患者情報を安全に管理できる環境で運用可能で、世界最先端の商用LLMに迫る性能を有する医療業務支援向け日本語LLMを開発しました。

独自に構築したベンチマークによる検証の結果、専門医試験を模した学術試験において最大90.8%の正答率を達成し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達しました。あわせて、日本の医療特性を踏まえた安全性検証を実施し、医療現場での利用に求められる性能と安全性の両立を確認しました。

本研究開発の成果については、医療現場の業務効率化および医療の質向上に資することを目指し、今後、段階的に社会実装を進めていく予定です。


NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)ニュースリリース「医療現場の事務作業を支援する高性能な日本語LLMを開発しました」
https://www.nedo.go.jp/news/press/AA5_101936.html” より一部引用

2026年5月28日、NEDO、さくらインターネット、東京大学、ABEJA、理化学研究所などの連名機関が、医療現場の業務を支援する高性能な日本語LLMを開発したと発表しました。
記事では、日本語版医療特化型LLM「Weblab-MedLLM-GLM-4.7(355B MoE)」が、「専門医試験を模した学術試験において、外部文書を参照しながら回答する方式(RAG)を用いることで最大90.8%の正答率に到達し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達した」とのことです。

性能面をもう少し詳しく見てみます

画像
表1 代表的な追加学習モデルおよびフルスクラッチモデルの性能比較
出典:NEDO「医療現場の事務作業を支援する高性能な日本語LLMを開発しました」

先述の通り、診療ガイドライン等の参考文献を知識として与えたRAGを用いた場合、Weblab-MedLLM-GLM-4.7はClaude Opus 4.5やGemini 3 Pro Previewに迫る90.8%の正答率を記録しています。
いずれのWeblab-MedLLMもRAGによって正答率が上がっており、適切な参考資料を与えることが正確さの向上に寄与する可能性が示唆されました。

また、ガイドライン評価(日本の医療現場の対応方針に即した回答が得られるか)を見てみると、正答率自体は専門医試験の時より低下しているものの、追加学習によるWeblab-MedLLM-GLM-4.7の変化幅は+10.8%でした。この結果から、GLM-4.7をベースに医療分野のデータを用いて追加学習をすることによって、日本の診療ガイドラインに沿った回答が得られやすくなることが示唆されました。

ただし、Weblab-MedLLM-gpt-oss-120bは追加学習で正答率がー7.7%となっており、医療分野の追加学習を施しても、全てのLLMで正答率が改善されるとは限らないことに注意が必要でしょう。
言い換えると、ベンチマークの正答率が上がっても、LLMによってはガイドラインに沿った応答ができにくくなる可能性があるということです。

オンプレミスで運用することも想定されている

先程の引用でも触れられていますが、今回のLLMは「医療機関のオンプレミス環境または医療機関が管理する国内クラウド環境」で運用することも想定されているようです。
オンプレミス環境は、「自社(今回の場合は医療機関)が管理する設備の敷地内にサーバー・ネットワーク機器・ソフトウェアなどのシステムを自前で設置して、運用・管理する環境」のことを指します。

通常のChatGPTやGeminiを活用する場合は、基本的に外部に情報を送信することになるので、調剤薬局で言うところのレセコンや電子薬歴のデータを直接入力すべきではありません。
一方で、オンプレミス環境かつ外部ネットワークから完全に遮断された環境のLLMであれば、個人情報や機密情報の処理が医療機関内のシステムだけで完結するため、これらの情報をLLMに入力する前提で活用することも可能です。

ただし、一般的なPC1台で動かせるようなものではありません

ここまで書いておいて恐縮なのですが、今回紹介されているLLMは一般的なPC単独で動かせる規模のLLMではありません。

今回の「専門医試験を模した学術試験において最大90.8%の正答率を達成」したのは「Weblab-MedLLM-GLM-4.7(355B MoE)」になりますが、名前の通り355B(約3,550億パラメータ)規模となっており、恐らく以下のようなイメージの設備が必要です。

画像
ChatGPTの画像生成機能で生成

…どれくらいかかるでしょうね。2億円くらいですかね。
とにかく、薬局が自前で購入する設備というよりは、大学病院、研究機関、医療AIサービスのベンダー、クラウド事業者向けの設備と言えます。

安全性の検証結果は?

LLMが医療情報を扱ううえで重要となる安全性の検証として、以下の多面的な取り組みを実施しました。

1)学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立
2)患者情報を自動で検出・マスキングする機能の実装
3)日本の医療特性を踏まえた対話型安全性ベンチマーク(5万件超)の策定・公開およびモデル評価
4)攻撃耐性を評価する試験(6000件規模のレッドチーミング)の実施

検証の結果、追加学習を行った後もベースモデルと同等の高い安全性を維持できることを確認しました。一方で、ベースとなるLLMの選択が安全性維持を大きく左右することも明らかになり、医療分野でより安全なAIを開発する際の重要な知見を得ました。


NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)ニュースリリース「医療現場の事務作業を支援する高性能な日本語LLMを開発しました」
https://www.nedo.go.jp/news/press/AA5_101936.html” より一部引用

このうち、対話型安全性ベンチマークとレッドチーミング評価に関しては結果が提示されていますので、詳しく見てみましょう。

1. 対話型安全性ベンチマーク

医療分野のLLMが、危険もしくは倫理的に不適切な医療分野の相談に対して、安全に拒否・修正・注意喚起できるかを測るベンチマークです。
確認できる結果を一部抜粋して見てみると、以下のようになっています。
(10点満点、高いほど良い)

  • gpt-oss-120b:9.08
  • Weblab-MedLLM-gpt-oss-120b:8.65
  • Qwen3-235B-A22B-2507:7.36
  • Weblab-MedLLM-Qwen3-235B-Instruct:6.56

gpt-oss-120bベースの120B(1200億パラメータ)モデルは比較的高いスコアを示していますが、Qwen3-235Bベースの235B(2350億パラメータ)モデルは6.56点と、gpt-oss-120bをベースにしたときと比較して低いスコアとなっていました。
ニュースリリースで言及されている「ベースとなるLLMの選択が安全性維持を大きく左右する」という主張と、概ね整合する結果といえそうです。

ただし、今回メインで紹介しているWeblab-MedLLM-GLM-4.7および元モデルのGLM-4.7に関しては、対話型安全性ベンチマークの結果が掲載されていないため、どの程度の安全性なのかは不明です。

2. レッドチーミング

こちらは、攻撃者視点に立って意図的に攻撃を仕掛ける方法で、攻撃成功率で評価されます(低い方が良い)
先程と同様、確認できる結果を一部抜粋して見てみると、以下のようになっています。

  • Weblab-MedLLM-gpt-oss-120b think:4.0%
  • Weblab-MedLLM-GLM-4.7 think:4.7%
  • Weblab-MedLLM-GLM-4.7:8.7%

判定基準は攻撃成功率0%=合格、0%超~20%未満=要改善、20%以上=不合格。(think)はreasoningを有効化していることを示す。


NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)ニュースリリース「医療現場の事務作業を支援する高性能な日本語LLMを開発しました」
https://www.nedo.go.jp/news/press/AA5_101936.html” より一部引用

Weblab-MedLLM-GLM-4.7に関しては、think(推論モード)を有効にしたほうが外部からの攻撃に対して堅牢になる可能性があります。
ただし、NEDO自身の基準ではいずれも0%超~20%未満に該当するので、要改善ということになります。

いずれ、日本語版医療特化型LLMが実用化されても…

ニュースリリースに提示されているユースケースを見てみると、「検査名称からJLAC11コードへの自動変換」「症例データの自動整理(脳卒中レジストリ構築)」「退院時サマリーの下書き作成」「電子カルテへの自然言語による問い合わせ」といった用途が想定されており、現状は全ての業務に直接的に関与することは想定されていないと考えられますが、いずれは更に広い用途で活用される可能性もあります。

ただ、「膨大な知識を根拠に、ガイドライン通りに動けるAI」は完璧そうに見えても、ハルシネーションのリスク、先述の安全性のリスク、そしてイレギュラーなケースに十分対応できないリスクを完全に排除することは困難です。
ゆえに、AIにこのようなリスクがあることを理解したうえで、どこまでをAIに任せ、どこからは人間の責任のもと遂行すべきなのかを適切に判断できる能力を持つ医療従事者が、今後さらに必要となるかもしれません。

そして最後に、

これらはいずれも医療従事者の事務作業・文書作成を補助するものであり、疾病の診断・治療そのものを行うものではありません。最終的な判断は医師および医療従事者が行います。

NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)ニュースリリース「医療現場の事務作業を支援する高性能な日本語LLMを開発しました」
https://www.nedo.go.jp/news/press/AA5_101936.html” より一部引用

これはニュースリリース内の文章の引用ですが、日本語版医療特化型LLMがより広い用途で活用されるようになったとしても、この考え方は忘れてはなりません。

コメントを残す

薬剤師のためのAIノートをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む