新型コロナウイルス感染症(COVID-19)対策として、データサイエンスの立場からもさまざまな取り組みが行われている。DataRobot社は今年3月末から日本国内でCOVID-19に関わる研究に従事する研究者や分析官に無償でライセンスを提供するプログラムをスタートしているほか、SIGNATEのプロジェクト「COVID-19チャレンジ」におけるデータ分析を目的とする人たちにもライセンスを提供している。

DataRobot社が7月14日~8月31日にオンライン開催している年次イベント「AI Experience」のセッション「DataRobotを用いたCOVID-19臨床データの分析」では、COVID-19チャレンジで公開された臨床データの分析事例について、同社のデータサイエンティストである伊地知晋平氏と菅原功氏が紹介した。

DataRobot社 データサイエンティスト 伊地知晋平氏

DataRobot社 データサイエンティスト 伊地知晋平氏

自由記述欄を除いたテーブルデータからの重症化予測モデル

DataRobot社のデータサイエンティストたちは、COVID-19チャレンジにて公開されているCOVID-19患者の臨床データを用いて、COVID-19と確定診断された患者が将来重症化するかどうかを事前に予測するモデルの構築に向けたフィジビリティスタディ的な観点から分析を進めた。

取り組んだのは、以下の2つのモデルの構築だ。

  1. 自由記述欄を除いたテーブルデータからの重症化予測モデル
  2. 自由記述欄から抽出したキーワードを使った重症化予測モデル

なお、分析のタイミングの関係上、今回の発表内容は4月14日時点にダウンロードされた臨床データが対象となっている。

今回のセッションではまず、1の自由記述欄を除いたテーブルデータからの重症化予測モデルについて、伊地知氏が解説した。

同モデルで対象としたのは、「ステータス」欄に情報が入っているデータ437行。症状/経過や行動歴などの自由記述欄データは、この分析からは除外されている。また、データの加工/前処理段階において、確定日/発症日を特徴量として追加し、職業などの表記揺れが意味のあるカテゴリとなるよう調整されている。そして、「重症化」「死亡」を「True」、それ以外を「False」として2値ラベリングし、予測ターゲットとした。こうして基本加工を行ったデータを機械学習自動化プラットフォーム「DataRobot」に投入し、機械学習モデルを構築していったという。

モデル構築にあたって、実際の予測ターゲットと確定日/発症日との関係性を見てみると、確定診断から重症化までにタイムラグがあるため、データをダウンロードした日に近くなるほど重症化率が低くなっていく傾向が出てくる。

伊地知氏は「こうした特徴量を予測モデルに入れてしまうと、本当に探さなければならない要因が隠れてしまうので、次のサイクルでは取り除いてほかの特徴量でモデルを作っていくということを丁寧に行っていった」と、モデルインサイトの確認結果を基に特徴量を絞り込んだことを説明。このほかにも曜日や市区町村など、重症化リスクとして紐付ける合理的な理由が見当たらないことがわかってきた項目については、データを省いて次のサイクルを回したという。

分析手順

分析手順

そしてこの分析結果からは、重症化には患者の年代が大きく影響していることがわかった。60代からリスクが高くなっていく傾向が見られるほか、海外渡航歴と重症化リスクの関係を見ると、渡航歴がない人のほうが3%程度重症化リスクが高いことがわかる。伊地知氏は「医師による正しい判断が必要」だと前置きした上で、この結果について「海外渡航歴がある人は、データ取得のタイミング的に3月の卒業旅行シーズンで旅行をしていた若い人だったということが考えられる」と考察している。