Microsoft Corporationはこのほど、「The Path to Medical Superintelligence」において、同社のAI医療診断システム「MAI-DxO」がNEJM掲載症例について最大85%の正確な診断に成功したと公表した。
この精度は、経験豊富な医師集団の4倍以上に相当するという。
医療診断AIの精度を評価する新しいベンチマークを開発
Microsoftは、増え続ける医療ニーズや高騰する医療費、診断の遅れや誤りといった問題に対する現実的な解決策として、医療分野へのAIの導入に力を注いでいる。近年の生成AIの進化には目を見張るものがあり、現在の最新の医療AIは米国医師免許試験(USMLE)などの試験でほぼ満点を獲得することができるという。
しかし、USMLEなどの試験は主に多肢選択式の問題に基づいており、暗記力を重視する傾向にあることから、AIの臨床推論能力のベンチマークとしては不十分だと同社は指摘。
そこでMicrosoftの研究チームは、新たなベンチマークとして「Sequential Diagnosis Benchmark(SD Bench)」を開発した。SD Benchは、医学誌「New England Journal of Medicine(NEJM)」の掲載症例をベースとしており、AIや医師が繰り返し質問や検査を行いながら、最終診断に到達するまでのプロセスを段階的に評価する。各調査には仮想コストが設定されており、診断精度と資源消費の両面で性能を評価できる。
AI診断システム「MAI-DxO」が人間より優れた精度を発揮
ベンチマークに加えて、医師の診断アプローチをエミュレートする「Microsoft AI Diagnostic Orchestrator(MAI-DxO)」も開発した。MAI-DxOの大きな特長は、複数の言語モデルを協調運用することによって、複数の診断アプローチを持つ仮想的な医師団を模倣している点である。これによって、安全性や透明性、柔軟性が向上し、複雑な臨床ワークフローを管理できるようになったという。
MicrosoftではGPT、Llama、Claude、Gemini、Grok、DeepSeekなどのさまざまな生成AIモデルでMAI-DxOをテストし、すべてのモデルで診断性能の向上を確認したとのこと。最も優れたパフォーマンスを発揮したのは、MAI-DxOとOpenAIのo3を組み合わせたモデルで、この組み合わせではNEJMベンチマークケースの85.5%を正しく診断できたという。
NEJMに掲載される症例は複雑で、診断には高度な知識が要求される。米英の臨床経験5~20年の現役医師21名による比較評価では、同じタスクの平均精度は20%だった。
診断精度と並んで重要な点として、MicrosoftはMAI-DxOが定義されたコスト制約内で運用できることも強調している。これによって、コストを無視した過剰な検査の実施を防止できる。
AIは医師を代替するものではない
Microsoftは、MAI-DxOの実験は優れた結果を得られたものの、日常的な診療への適用にはさらなる検証と臨床環境での実証、規制整備が必要だと説明。例えば、この研究における医師は同僚や参考書などの手助けを得ずに作業しており、これは通常の臨床とは異なる可能性がある。また、検査コストや医療費は地域やシステムによって異なるため、実際の現場のコスト計算はもっと複雑だ。
Microsoftは信頼性、安全性、有効性を確保するために、主要な医療機関と提携してこれらのアプローチを厳密に検証するという。その上で、AIはあくまでも医師や医療専門家を補完するものであり、医師を代替するのではないと説明している。
AIは、定型業務の自動化や診断支援によって、人間の専門性と共に進化するパートナーとしての役割を担う存在だと結論付けている。