【連載特別企画】

事例で学ぶ、 Microsoft Azure活用術 ~クラウド移行編~

20 「あらゆる研究者がいつ、どこからでもゲノム解析が行える」世界を実現すべく、Azure 上でのゲノム解析を検証 - 東京大学医科学研究所 ヒトゲノム解析センター

20/39

がんゲノム解析プラットフォーム「Genomon」のイメージ キャラクター (辻田 幸広 氏によるデザイン)

ヒトゲノム解析に関する世界的なレベルでの先端研究を実践する、東京大学医科学研究所 ヒトゲノム解析センター。医学、生物学研究にとって欠くべからざるプロジェクトを推進する同センターでは、情報科学とスーパーコンピューターを利用した高度な解析が日々行われています。とりわけ、近年スーパーコンピューターによるゲノム解析によって飛躍的に加速している研究分野が、がん研究です。

この研究分野の発展をさらに加速するためには、さまざまな研究現場で大規模シークエンスによるゲノム解析研究が盛んに実施される必要があります。しかし、ゲノム解析には、大容量のメモリを搭載し、高速ディスクによってアレイ化されたスパコン環境が不可欠であり、多くの研究現場にとってはこういった環境の調達自体が困難です。また、世界規模でのシークエンス データの膨大化に伴い、各研究機関のスーパーコンピューターにシークエンス データをダウンロードして個別に解析を行う従来の研究モデルに限界が生じつつあります。そのために、米国においては、シークエンス データを備えたクラウドの整備が進むなど、ゲノム解析においてクラウドの利活用が必須のものになりつつあります。

同センターは、Microsoft Azure 上でゲノム解析環境の構築に成功、さらにその有効性と実現性を検証し、良好な結果を得ることができました。同取り組みの発展により、「あらゆる研究者がいつ、どこからでもクラウド上でゲノム解析を行える」という世界の実現、ひいてはそれによる、がん研究のさらなる加速が期待されます。

プロファイル

東京大学医科学研究所 ヒトゲノム解析センターは、疾病の診断、予防、治療法の開発などを通じて人間社会に貢献することを目的に、生物学の発展に貢献している研究室です。1991 年度に医学、生物学研究の将来を見据えたプロジェクトとして設置され、ゲノム データベース分野を皮切りに、多くの整備が行われてきました。先端研究と並行し、ゲノム研究を目指す研究者の受け入れや指導を行うとともに、日本のデータベースおよび知識ベースの構築、マッピング・シークエンス作業の国際的対応グループとしても機能しています。

導入の背景とねらい
日本のヒトゲノム研究のさらなる発展を目指し、クラウド上でのゲノム解析に関する検証を実施

DNA が含む遺伝情報であるゲノム情報。このゲノム情報を解析する「ゲノム解析」は、昨今、疾患関連遺伝子解析研究において重要度を増しており、臨床現場における難治性疾患の治療へ向けた貢献が期待されています。数万種類もの遺伝子について一度にその発現情報を得ることができるマイクロアレイシステム、ゲノム DNA そのものを読み取ることができるシークエンサーなどを利用し、そこから得られる膨大な情報をスーパーコンピューター (スパコン) により解析することで難治性疾患の先端研究を推し進めるのが、東京大学医科学研究所 ヒトゲノム解析センター (以下、ヒトゲノム解析センター) です。

東京大学医科学研究所
ヒトゲノム解析センター
センター長
教授
宮野 悟 氏

世界的なレベルでの先端研究と並行し、同センターではゲノム情報と解析プラットフォームの一般提供も展開。ゲノム研究者へ向けた支援を推し進めています。2016 年 5 月には、がんゲノム解析のためのプラットフォーム「Genomon2」の一般公開を開始しました。

東京大学医科学研究所 ヒトゲノム解析センター センター長 教授 宮野 悟 氏は、これまでのがんゲノム解析の研究変遷と Genomon の概要について、次のように説明します。

「2010 年に、システム的統合理解に基づいてがんの先進的な診断や治療、予防法の開発に活かすという『システムがん』が新たな学術領域研究として文部科学省に採択されました。これは『スパコンと数学を融合し、それをがん研究に活かす』というコンセプトのもとスタートしたものです。2011 年には大規模シークエンスによるがんゲノム解析へのアプローチにより、これまで不明だった骨髄異形成症候群 (MDS) の原因を解明することに成功し、同年の科学雑誌『Nature』にも掲載されました。このようにスパコンを駆使したがんの研究は大きな成果を生み出していますが、研究を高スピードで推し進め、かつその成果を臨床現場に還元していくためには、さまざまな研究現場で大規模シークエンスによる解析が行われる必要があります。そこへ向けて当センターで提供するのが、がんゲノムのシークエンス解析プラットフォーム『Genomon』です。Genomon は 2012 年に一般公開を開始しましたが、一部機能に制限があること、利用前の設定ファイルの準備が大変で迅速な利用が困難であることなどの問題点がありました。そこで 2016 年からは、次期バージョンである『Genomon2』を提供することで、多くの研究者にがんゲノムシークエンス解析を実施頂ける取り組みを進めています」(宮野 氏)。

Genomon2 での解析結果はビジュアル化した形式で出力することも可能。多くの研究者が同環境を利用できるよう、ヒトゲノム解析センターでは同研究室内にあるスパコン Shirokane の環境も外部へ提供している

ヒトのゲノム情報は、約 30 億文字の情報から構成されています。ヒトゲノム解析センターでは、患者の検体データをもとにこのヒトゲノムの解析を行っていますが、システムのジョブ実行数は東京大学の情報基盤センターが実行する数のおよそ 100 倍にものぼり、加えて 1 つのジョブでは 50,000 ものファイルが生成、アクセスされます。当然その解析には、大容量のメモリを搭載し、高速ディスクによってアレイ化されたスパコン環境が不可欠となりますが、多くの研究現場にとっては、こういった環境の調達自体が難しいことです。 Genomon2 とともに Shirokane の環境も提供することでこれを支援する同センターですが、宮野 氏は近年、クラウドを活用した解析環境の提供にも注目していると語ります。

「ゲノム解析の実行が大規模なスパコンを持つ研究所に限定される場合、スピード感をもった研究の発展は見込めません。当センターでは Shirokane の環境を提供していますが、どうしても物理的な場所を制限するため、研究スピードを最大化するまでには至りません。また、解析に必要な検体データも、研究機関がその都度調達し取り扱わねばならず、これもスピード感を損なう原因となっています。この状況を打破する鍵は『クラウド』にあるといえるでしょう。あらゆる研究者がいつ、どこからでもクラウド上で検体データの入手とその解析が行えるならば、我が国の研究の大きな発展が期待できます。それを目指すべく、2016 年 6 月より、クラウドにおける Genomon2 の稼働について検証を開始しました」(宮野 氏)。

システム概要と導入の経緯、構築
一般公開を目指す場合、性能、信頼性などの観点で Azure が適していた

海外では既に、クラウド上でのゲノム解析や検体データの共有がプロジェクトとして動いている例もあります。同取り組みは、日本の医療、生物学研究をこれまで以上に発展させる起爆剤となり得るのです。

しかし現在、日本では倫理的な背景から、個人情報である患者の臨床シークエンス データ (ゲノム情報) をクラウド上で解析することが難しい状況です。そこで、宮野 氏が語った検証においては「細胞株」と呼ばれるサンプルを利用。クラウド上で Shirokane と同水準の処理を実行することを目標に、その実現性と有効性について検証が進められました。これは倫理的側面の課題がいずれ解消された際、即座にユーザーへ向けてクラウド環境を提供すべく、そのための環境整備を目指したものでした。

東京大学医科学研究所
ヒトゲノム解析センター
DNA情報解析分野
助教
博士 (統計科学)
白石 友一 氏

東京大学医科学研究所 ヒトゲノム解析センター DNA情報解析分野 助教 博士 (統計科学) 白石 友一 氏は、検証の概要について次のように説明します。

「がんにおいては DNA とともに、その転写物である RNA の全体像も大きく変化しています。今回の検証では、749 検体分の RNA-seq データを、どのくらいの時間で処理できるか、そしてそこでの所要コストはどのくらいか、という観点で進めることを考えました。749 検体という数字ではピンとこないかもしれませんが、これは TCGA など一部の巨大プロジェクトを除くと、世界水準でも最大規模のプロジェクトから算出されるデータ量となります。この処理を行うクラウド基盤については、当時案内を受けていた Azure の利用を構想しました」(白石 氏)。

続けて東京大学医科学研究所 ヒトゲノム解析センター シークエンスデータ情報処理分野 准教授 渋谷 哲朗 氏は、癖のない操作性を備える Azure を採用することで、検証開始までのリード タイムが短縮化できる点に期待したと語ります。

「ゲノム解析は、単に高度な処理が行える環境を用意すればよいというわけではありません。Genomon2 では、解析精度を高めるべく並列処理を前提とした特殊なプログラムを組んでおり、その動作には高い移植性が求められます。クラウド上の環境についてはプログラムの動作へ向けたチューニングが不可欠であり、その作業を行ううえで、クラウドの操作性は重要な要素だったのです。Azure は癖のない操作性を備えているため、このチューニングを滞らせるボトルネックがなかったことも、選定のポイントだといえるでしょう」(渋谷 氏)。

導入ソフトウェアとサービス

  • Microsoft Azure

導入メリット

  • 充実したテンプレートを備え、利便性にも優れる Azure を検証基盤としたことにより、わずか 2 か月で、ゲノムシークエンス解析プラットフォームの構築が完了できた

  • Azure が有する高い性能により、センター内にあるスパコンと比べても遜色ない速度でゲノム解析を行うことができた

    導入の効果
    センター内にあるスパコンと比較しても遜色のない性能により、高速での解析を実現

ヒトゲノム解析センターは、Genomon2 を一般公開した翌月となる 2016 年 6 月、検証基盤に Azure を採用することを決定。その後約 2 か月という短期間で、Azure 上での Genomon2 の構築とチューニング作業を完了しました。

東京大学医科学研究所
ヒトゲノム解析センター
シークエンスデータ情報処理分野
准教授
渋谷 哲朗 氏

渋谷 氏は、2 か月という短期間で検証の実行まで到達できた理由について、次のように説明します。

「Shirokane にはさまざまなライブラリ、パッケージがインストールされているため、各種ソフトウェアの設定は、ライブラリ、パッケージの依存関係に注意する必要があります。Azure の場合、仮想マシン (VM) をまっさらな状態から立ち上げることができ、Shirokane のように他のパッケージなどを気にする必要がありません。チューニング作業やコンポーネントの導入などはむしろ Shirokane よりも容易だと感じました。また、システムの構築と検証は複数人で進めましたが、Azure では他のユーザーとプログラムの共有が可能です。テンプレートも充実しているため、共通化できる箇所をテンプレート化し、構成を他のユーザーと共有しながら進めた結果、2 か月という短期間で構築を完了することができました」(渋谷 氏)。

また、本旨である有効性の検証においても、期待したとおりの結果を得ることができたと白石 氏は続けます。

「先のとおり 749 検体分の RNA-seq データは非常に規模の大きなものとなり、この規模の解析が無事に完了できれば、高い有効性を持つといえるのです。結果として、Azure 上での計算はわずか 1 日半で完了しました。これは Shirokane と比較しても遜色ない速度です。また 1 検体あたりの解析コストは 230 円ほどであり、現実的なコストに近づいてきています。プログラムの最適化を進めることで、このコストはさらに削減できる可能性もあります」(白石 氏)。

今回の Azure をもった検証により、「あらゆる研究者がいつ、どこからでもクラウド上で解析と検体データの入手が行える」という世界の実現において、少なくともプラットフォーム側は既にその有効性を持つことが明確となりました。宮野 氏はこの検証結果を受けて、ヒトゲノム解析センターが提供するシステムのクラウドへの移行を真剣に検討すると語ります。

「かつて、クラスタマシンが世の中に出始めたころにも同様の検証を行いましたが、1 回の解析が完了するまでに一部の機器が故障するといったトラブルが多発し、有効性の側面で疑問を抱いたことを覚えています。今回の検証ではそういった不安要素がなく、クラウド上でゲノム解析を行う世界の到来はもはや目前なのだと実感しました」(宮野 氏)。

今後の展望
今回の検証結果や先の海外実績をもって、クラウドを利用したデータ解析システムの実現を目指す

Azure をもったゲノム解析の有効性については明確化されたものの、国内では先に触れた倫理的側面を背景に、依然としてヒトゲノムのクラウド上での解析に関する理解は得られていません。実現性という意味ではまだまだ課題が残っているといえるでしょう。その点において、Azure は厚生労働省の「医療情報システムの安全管理に関するガイドライン」を含む「3 省 4 ガイドライン」へ対応した信頼性を備え、かつ日本の裁判所の管轄とされるなど、患者情報の安全管理にかかわる面でさまざまな取り組みが進められています。先の理解の獲得には、セキュリティをはじめとしたプラットフォーム側に向けられる懸念の解消が必要ですが、そのための土壌は整備されつつあります。

また、米国 Broad Institute of MIT and Harvard の調査発表では、2014 年のシークエンス データ量が 300 ペタバイトにまで到達したことを伝えており、もはやゲノム解析をローカル環境だけで行うことには限界があるといえます。実際、すでに米国ではこのような状況を見据え、大規模なゲノム データに対してアクセス、普及、共有、およびマイニングを行う適切なリソースと方法を研究者に対して提供するための取り組みである「NCI Cancer Genomic Cloud Pilots」が開始されています。

宮野 氏は今後、今回の検証結果や先の海外実績をもって、国内の理解を高めていきたいと意気込みます。

「国内にもバイオサイエンスデータベースセンター (NBDC) という施設が存在します。しかし、データベースに対してどこからでもアクセスでき、同時に解析が行えなければ、それは大きな意味を持ちません。データを収集するだけでは意味がないのです。今回の Azure 上での検証で得られた有効性と海外での実績をもって国内の理解を求めることで、クラウドを利用したデータ解析システムをより現実のものとしたいと考えています」(宮野 氏)。

限られた研究者だけでなく、医療機関や製薬、ヘルスケア系の研究者など、幅広いユーザーがゲノム解析を行える環境づくりを進めるヒトゲノム解析センター。この活動は学術研究を主としたものですが、データベースと解析に対する根本的な考え方の変革は、医療データベースなど他のシステムの最適化にもつながることでしょう。同センターの活動が今後も期待されます。

ユーザー コメント
「国内にもバイオサイエンスデータベースセンター (NBDC) という施設が存在します。しかし、データベースに対してどこからでもアクセスでき、同時に解析が行えなければ、それは大きな意味を持ちません。データを収集するだけでは意味がないのです。今回の Azure 上での検証で得られた有効性と海外での実績をもって国内の理解を求めることで、クラウドを利用したデータ解析システムをより現実のものとしたいと考えています」

東京大学医科学研究所
ヒトゲノム解析センター
センター長
教授
宮野 悟 氏

(マイナビニュース広告企画:提供 日本マイクロソフト)

マイクロソフト法人導入事例サイトはこちら

20/39

インデックス

連載目次
第39回 わずか4か月で事業のクラウドシフトを果たした、エヌワークの挑戦
第38回 Moodleで構築したeラーニングシステムをAzureへ移行 - 北海道大学 大学院工学研究院工学系教育研究センター
第37回 SAP ERP環境にAzureを採用したIT基盤のフルクラウド化を実施 - ゴルフダイジェスト・オンライン
第36回 Azureをプラットフォームとする教育クラウドを市で整備、運用することで、教育と校務の情報化と、教員の働き方改革を推進 – 西条市教育委員会
第35回 シリーズ販売本数が7,800万本を超える「バイオハザード」のゲーム基盤に、Azureを採用 - カプコン
第34回 データ分析の基盤産業化を目指す、倉敷市の挑戦
第33回 海外拠点ゆえのICT課題の解消を目指した「段階的な標準化」- 新日鉄住金エンジニアリング
第32回 Microsoft Azureが、伊勢志摩サミットにおける「安全で正確な情報発信」を支える - 三重県
第31回 Microsoft AzureとOffice 365が、医療のシミュレーション教育を支える - 国家公務員共済組合連合会
第30回 機密性の高い文書を取り扱うファイルサーバーを、Azure によるハイブリッドクラウド環境へリプレース – サン・フレア
第29回 地方自治体の「開かれた議会」を支えるべく、提供基盤にAzure Media Servicesを採用– ジェイ・フィット
第28回 教職員だけでなく学生の利用も見据え、ユーザビリティに優れたAzureを研究基盤に採用 – 香川大学
第27回 音楽業界の変化に対応せねばならない。アジリティの獲得へ向け、Microsoft AzureのPaaSを積極的に採用したIT基盤を構築 – ジャパンミュージックデータ
第26回 Microsoft AzureのPaaSを最大限に活用したモダナイゼーションを実施 - 富士フイルムソフトウエア
第25回 クラウドを基幹とした創薬エコシステムで、日本のバイオ産業の活性化をめざす - 産業技術総合研究所 創薬分子プロファイリング研究センター
第24回 情報共有 × 学習管理サービスの提供基盤を Azure へ移行することで、70 万人以上が利用するサービスの安定稼動を実現 - ウィルソン・ラーニング ワールドワイド
第23回 将来的なクラウド ニーズの変遷を見据え、Windows Azure Packと Microsoft Azure によるハイブリッドな開発検証基盤を構築 – ビービーシステム
第22回 Azure Cognitive Servicesを組み込んだ映像解析ソリューション「アロバビューコーロ」を導入 - 東京サマーランド
第21回 Azure SQL Data Warehouse を活用したデータ分析基盤を構築し、ビッグ データを「蓄積」から「全社活用」の段階へ - ゲオホールディングス
第20回 「あらゆる研究者がいつ、どこからでもゲノム解析が行える」世界を実現すべく、Azure 上でのゲノム解析を検証 - 東京大学医科学研究所 ヒトゲノム解析センター
第19回 Azure DevTest Labs の活用により、青天井になりがちなインスタンスの統制も実現 - 東京ガスiネット
第18回 ミッション クリティカル性の高い SAP ERP の開発 検証環境を Azure 上に移行 - オイレス工業
第17回 安定性、利便性、セキュリティに優れる Enterprise Mobility + Security の導入により、モバイル活用のさらなる発展とアジリティ向上を実現 - 丸紅
第16回 提供基盤を Azure へ移行することで、よりセキュアかつ利便性の高いサービスへのリニューアルを実現 – セゾン情報システムズ
第15回 Microsoft Operations Management Suite の導入で、高度な「見える化」を実現 - エイアンドティー
第14回 「農家の安定経営」を継続的に支援すべく、Microsoft Azure を活用したハイブリッド クラウド環境を構築 - JA愛知みなみ
第13回 オンプレミスから Microsoft Azure へのシステム移行により、自然災害発生時でも "止まらない" IT 基盤を整備 – 小柳建設
第12回 新規事業であるクラウド プラットフォームの提供基盤に Microsoft Azure を採用 - ミロク情報サービス
第11回 Microsoft Azure 上で Photon を構築することで、100 か国を超えるエリア間でのリアルタイム通信対戦を実現 - バンダイナムコスタジオ
第10回 トップ シェアを誇る Web 電話帳のクラウド基盤を、「スターターパック」により短期間でAzure へ移行 – Phone Appli
第9回 SQL Server と Azure を採用した新たなデータ分析基盤を、わずか 2 か月で開発 – マガシーク
第8回 Microsoft Azure を採用することで、オンプレミスと同等の操作性をもったクラウド サービスの提供を実現 – エッサム
第7回 マイクロソフトの技術サポートにより Azure SQL Data Warehouse を短期導入、人口流動データを活用したビジネス拡大に寄与 - Agoop
第6回 「omni7」に、Microsoft Azure を基盤とした Windows タブレット「EM10」を採用 – セブン&アイ・ホールディングス
第5回 Microsoft Azure 上で提供する Wapli mirai により、中小規模の顧客ニーズに最適化したソリューション提供を実現 – 渡敬情報システム
第4回 Microsoft Azure の提供により、年間 30% もの水準で新規顧客の増加を実現 – インテリジェンス ビジネスソリューションズ
第3回 3 か月でSAP ERP システムを Azure へ移行、約 20% のコスト削減と地域医療の継続性が向上 - JA長野厚生連
第2回 決め手は信頼性 施工品質を支える検査システム「GLYPHSHOT」を、Azure 上であらたに構築 - 大林組
第1回 ハイブリッド クラウド構成が実現した、コストと可用性の両立と、信頼性高い DR 対策 - レコチョク

もっと見る



人気記事

一覧

イチオシ記事

新着記事