ELYZAは7月14日、内閣府が設置した「戦略的イノベーション創造プログラム(SIP)」が公募したSIP第3期補正予算「統合型ヘルスケアシステムの構築における生成AIの活用」のうち、テーマ1「医療LLM基盤の研究開発・実装」における研究開発課題「日本語版医療LLMの開発ならびに臨床現場における社会実装検証」で、医療領域における国産の特化LLM基盤の開発を担当したことを発表した。

この研究で構築した日本語版医療LLM「ELYZA-LLM-Med」シリーズは、総合点で国内最高レベルの性能を達成し、現場の医療タスクにおいてはグローバルトップ水準を超える精度を実現したという。

今回の特化LLM基盤開発において有効性を検証したアプローチは、特定の領域における特化モデル開発において汎用性の高いアプローチであり、多くの領域で横展開が可能と考えられるという。

  • 「ELYZA-LLM-Med」を開発した

    「ELYZA-LLM-Med」を開発した

プロジェクトの概要

プロジェクトのメンバーとして、さくらインターネットの組織内研究所であるさくらインターネット研究所が研究代表として共同研究機関を統括し、ELYZA、東京大学松尾・岩澤研究室が医療特化型LLMの開発を、ABEJAがデータの調達や加工・LLMシステムの開発を担当した。

また、個人情報を扱う場面では、セキュアな計算基盤環境を保有する理化学研究所にて検証を実施。今回焦点を当てるユースケース群については、国際医療福祉大学や藤田学園 藤田医科大学などの医療機関と連携しながら、データの取得や加工を進めた。

開発したモデル群

研究では、「電子カルテ標準化のための情報変換」および「レセプト(診療報酬明細書)の確認修正内容の提案」の2つのユースケースについて、各ユースケースの基盤となる日本語版汎用医療LLMの開発と、各ユースケースを解くための日本語版汎用医療LLMの適合に向けたモデル開発を行った。

「ELYZA-LLM-Med」は、今回開発した日本語版医療特化LLMシリーズの総称。「ELYZA-Med-Base-1.0-Qwen2.5-72B」は各ユースケースの基盤となる日本語版汎用医療LLM。海外製のオープンなモデルである「Qwen2.5-72B-Instruct」をベースに、複数の医療関連コーパスを用いた継続事前学習を実施した。

「ELYZA-Med-Instruct-1.0-Qwen2.5-72B(UC1)」は、「ELYZA-Med-Base-1.0-Qwen2.5-72B」に追加の事後学習を行い、「電子カルテ標準化のための情報変換」に適合するよう調整を施したモデル。

「ELYZA-Med-Instruct-1.0-Qwen2.5-72B(UC2)」は、「ELYZA-Med-Base-1.0-Qwen2.5-72B」に追加の事後学習を行い、「レセプト(診療報酬明細書)の確認修正内容の提案」に適合するよう調整を施したモデル。

開発に使用したアプローチ

今回のLLM開発において、今後の医療DX(デジタルトランスフォーメーション)をけん引していく技術基盤として、より多くのユースケースに対応すべく、まず根幹となる日本語版汎用医療LLMを開発し、それをベースに各ユースケースへ適合させるアプローチを採用した。

単一のユースケースに閉じた場合でも、医療という専門的なドメインにおいて要件定義やデータ整備を行うことは容易ではないため、ユースケース間で開発の足並みが揃わない可能性を考慮し、共通部分をあらかじめ学習させた。

また、オープンなモデルに関する国内外の開発状況をふまえ、モデルの基本性能は今後も改善されていくと考えられることから、継続事前学習を採用し、今後も高性能なモデルを効率的に作成し続けることを可能にしている。

  • 採用したアプローチ

    採用したアプローチ

ベンチマークに対する精度

  • 継続事前学習済モデルと他モデルのIgakuQAの精度・禁忌肢数比較

    継続事前学習済モデルと他モデルのIgakuQAの精度・禁忌肢数比較

  • 電子カルテ標準化のための情報変換の精度比較

    電子カルテ標準化のための情報変換の精度比較

  • レセプト修正における修正要否判定の精度比較

    レセプト修正における修正要否判定の精度比較

  • レセプト修正におけるコメントの質の比較

    レセプト修正におけるコメントの質の比較