東京大学大学院工学系研究科技術経営戦略学専攻/人工物工学研究センター 松尾・岩澤研究室は3月5日、医療特化型LLM(大規模言語モデル)を開発し、さくらインターネットの生成AI向け推論API基盤「さくらのAI Engine」から研究用途限定で無償提供を開始した。

モデルの概要

Weblab-MedLLM-Qwen-2.5-109B-Instrucは、内閣府 戦略的イノベーション創造プログラム(SIP)第3期「統合型ヘルスケアシステムの構築における生成AIの活用」で行ったテーマの1つである「日本語版医療LLMの開発ならびに臨床現場における社会実装」において開発された成果であり、日本語環境における医療AI研究の発展を支援するもの。

同モデルは、松尾研がさくらインターネット、ELYZA、ABEJA、理化学研究所、医療機関と連携して開発した医療LLM。2025年の医師国家試験ベンチマークでOpenAIのOpenAI-o1やGPT-4oを上回る93.3%の正答率を記録し、日本語の医療データにもとづいて訓練されることで、医療分野に特化した信頼性と性能を備えている。

実際の医療現場を想定した電子カルテデータ標準化のユースケースを想定し、感染症・検査情報の名称を厚労省の定める標準名称に変換するタスクにも取り組んだ。

  • 電子カルテデータ標準化の自動化の概念図

    電子カルテデータ標準化の自動化の概念図

その結果、既存モデルでは回答が難しい問題に対しても、獲得した医学知識に基づいて正しい標準名称を導出可能であることが示された。モデルはF1スコア85%の精度で標準名称への変換が可能であり、標準化のタスクにおいても国内外のLLMの性能を上回っている。

  • 感染症・検査情報の標準名称への変換精度の比較表

    感染症・検査情報の標準名称への変換精度の比較表

これらの結果から、医学知識を付与したLLMによって非常に高い精度で電子カルテデータ標準化が実現可能であり、LLMによる標準形式への自動マッピングによって医療現場のDXの実現に貢献できる可能性があることが示された。

利用については、研究成果の評価、研究の推進に貢献するため、開発したモデルを利用できる対話型AIサービスを提供する。公開期間は2026年3月5日~同8月31日までとなる。

今回の提供は、SIP第3期における研究開発成果を広く研究者コミュニティで活用してもらうための取り組み。医療分野に特化した日本語LLMが実際の研究環境で利用可能となることで、医療に関する自然言語処理の実証や研究が加速し、臨床現場でのAI導入に向けた検証にもつながることが期待されているという。

今後、複数の医療機関の電子カルテシステムと連携して動作するLLMエージェントとその安全性を評価する仕組みの構築を目指す予定だ。