新型コロナウイルス感染症(COVID-19)対策として、データサイエンスの立場からもさまざまな取り組みが行われている。DataRobot社は今年3月末から日本国内でCOVID-19に関わる研究に従事する研究者や分析官に無償でライセンスを提供するプログラムをスタートしているほか、SIGNATEのプロジェクト「COVID-19チャレンジ」におけるデータ分析を目的とする人たちにもライセンスを提供している。
DataRobot社が7月14日~8月31日にオンライン開催している年次イベント「AI Experience」のセッション「DataRobotを用いたCOVID-19臨床データの分析」では、COVID-19チャレンジで公開された臨床データの分析事例について、同社のデータサイエンティストである伊地知晋平氏と菅原功氏が紹介した。
自由記述欄を除いたテーブルデータからの重症化予測モデル
DataRobot社のデータサイエンティストたちは、COVID-19チャレンジにて公開されているCOVID-19患者の臨床データを用いて、COVID-19と確定診断された患者が将来重症化するかどうかを事前に予測するモデルの構築に向けたフィジビリティスタディ的な観点から分析を進めた。
取り組んだのは、以下の2つのモデルの構築だ。
- 自由記述欄を除いたテーブルデータからの重症化予測モデル
- 自由記述欄から抽出したキーワードを使った重症化予測モデル
なお、分析のタイミングの関係上、今回の発表内容は4月14日時点にダウンロードされた臨床データが対象となっている。
今回のセッションではまず、1の自由記述欄を除いたテーブルデータからの重症化予測モデルについて、伊地知氏が解説した。
同モデルで対象としたのは、「ステータス」欄に情報が入っているデータ437行。症状/経過や行動歴などの自由記述欄データは、この分析からは除外されている。また、データの加工/前処理段階において、確定日/発症日を特徴量として追加し、職業などの表記揺れが意味のあるカテゴリとなるよう調整されている。そして、「重症化」「死亡」を「True」、それ以外を「False」として2値ラベリングし、予測ターゲットとした。こうして基本加工を行ったデータを機械学習自動化プラットフォーム「DataRobot」に投入し、機械学習モデルを構築していったという。
モデル構築にあたって、実際の予測ターゲットと確定日/発症日との関係性を見てみると、確定診断から重症化までにタイムラグがあるため、データをダウンロードした日に近くなるほど重症化率が低くなっていく傾向が出てくる。
伊地知氏は「こうした特徴量を予測モデルに入れてしまうと、本当に探さなければならない要因が隠れてしまうので、次のサイクルでは取り除いてほかの特徴量でモデルを作っていくということを丁寧に行っていった」と、モデルインサイトの確認結果を基に特徴量を絞り込んだことを説明。このほかにも曜日や市区町村など、重症化リスクとして紐付ける合理的な理由が見当たらないことがわかってきた項目については、データを省いて次のサイクルを回したという。
そしてこの分析結果からは、重症化には患者の年代が大きく影響していることがわかった。60代からリスクが高くなっていく傾向が見られるほか、海外渡航歴と重症化リスクの関係を見ると、渡航歴がない人のほうが3%程度重症化リスクが高いことがわかる。伊地知氏は「医師による正しい判断が必要」だと前置きした上で、この結果について「海外渡航歴がある人は、データ取得のタイミング的に3月の卒業旅行シーズンで旅行をしていた若い人だったということが考えられる」と考察している。
※ 本記事は掲載時点の情報であり、最新のものとは異なる場合がございます。予めご了承ください。
もっと知りたい!こちらもオススメ

変化の時代に求められる「AIの力」とは? - AI Experience 2020
DataRobot社は7月14日~8月31日、オンラインにて年次イベント「AI Experience 2020」を開催している。本稿では、同社のチーフデータサイエンティスト シバタアキラ氏によるキーノートの様子をお届けしよう。
関連リンク
ダウンロードBOXに入れる
記事をダウンロードBOXに追加します。よろしいですか?
ブックマーク
記事をブックマークに追加します。よろしいですか?
-
[2021/03/05 08:00] サーバ/ストレージ
-
[2021/03/04 08:00] クラウド
-
$side_seminar_count = $i+1; ?>
-
2021年3月12日(金) 13:00 ~ 17:00 【第1部】13:00~13:50(基調講演) 【第2部】14:00~16:15 計12セッション 【ASK THE SPEAKER】16:30~17:00(講演者への質問コーナー)
KDDI SOLUTION DAY 2021 ~不確実性の高い時代のビジネス共創とDX~
$side_seminar_count = $i+1; ?>
-
2021年3月12日 金曜日 13:00 – 14:50
DXでさらに企業進化を AI+自動化でビジネスをパワーアップ
$side_seminar_count = $i+1; ?>
-
2021年3月15日(月)0:00~2021年3月31日(水)23:59
KDDI まとめてオフィスの学校向けオンラインセミナー ~これからの教育ICT推進に向けて~
$side_seminar_count = $i+1; ?>
-
2021年 3月 18日 (木) 13:00~18:20
マイナビニュース スペシャルセミナー 2021年の脅威に対峙する
$side_seminar_count = $i+1; ?>
-
2021年3月18日(木)15:00~16:00
5G時代のCDNに!コスト削減と顧客体験向上を両立させるCDNとは?
今注目のIT用語の意味を事典でチェック!