理研、次世代シーケンサのデータ解析精度を向上させる手法を開発

理化学研究所(理研)は、次世代シーケンサ(超高速塩基配列解読装置)で得られた断片化RNAの情報から、細胞内に本来存在している全長RNAの情報を高精度に再構築する解析プログラム「ARTADE2(アートエイドツー)」を開発したことを発表した。同成果は、理研生命情報基盤研究部門(理研BASE)の豊田哲郎部門長らによるもの。「ARTADE2」のアプリケーションは理研BASEのWebサイトに掲載されており、ダウンロードすることが可能だ。

細胞内に存在するRNAのセット「トランスクリプトーム」は、細胞の機能を決定付ける重要な要素で、これを正確に捉えることは、疾患を未然に防ぐ先制医療やバイオマス資源開発など、生命・環境科学分野でのさまざまな応用展開に有効だ。近年、次世代シーケンサで細胞内のmRNAの状況を調べる手法「mRNA-seq」が広く利用されるようになり、次世代シーケンサの発展によるデータ生産量も1回の実験で6,000億塩基(Illumina Hiseq2000の場合)まで増加してきた。これはヒトゲノムDNAの200倍の量に相当するという。その一方で、mRNAの長さはさまざまで、ヒトの場合、1,000塩基を超えるものがRNA全種類のうち80%以上を占めるが、mRNA-seqでは、100塩基程度までの短い断片の情報しか読み取ることができず、その結果、RNAの状況を知るには、次世代シーケンサで不完全に読み取られた断片化RNAの情報から完全な全長RNAの情報を再構築する処理が必要となっていた。しかし、細胞内のmRNAの状態が転写やスプライシングの制御によって多様に変化することや、シーケンスの際に生じるノイズや偏りの存在がこの処理を困難にしており、全長RNAの情報を高精度に再構築するためのプログラムが必要となっていた。

従来のソフトウェアは、1つのmRNA-seqデータだけを用いて処理しているため、データによるノイズや偏りの影響を大きく受けていた。今回開発されたARTADE2では、さまざまな生体組織や環境条件下で採取したRNAから複数のmRNA-seqデータを取得・統合して解析するため、ノイズや偏りの影響の問題を解決することが可能となっている。具体的には、同一のゲノムにおける異なる2点間のRNA発現活性の相関を調べる「ポジショナル相関解析」を網羅的に計算し、ゲノム配列情報と合わせて統合的に解析することで、全長RNAの情報を高い精度で再構築することに成功したという。

図1 複数個のmRNA-seqデータに対してポジショナル相関解析を適用した結果。
上段:個々のmRNA-seqデータ。縦軸はRNA発現の強さを、横軸はゲノムの位置を示す。図中のX－Yはポジショナル相関計算の例(下段)と対応している。
下段:ポジショナル相関解析結果。横・縦軸は共にゲノムの位置を示しており上段図と対応している。ポジショナル相関が高いほど赤く、高い四角柱で表示されている。トランスクリプトーム観察結果には多くのノイズが含まれるが、ポジショナル相関解析を行うことで、RNA分子のエキソンに対応する領域が、高いポジショナル相関を示す「島(右上と左下にある赤色の四角形)」として可視化される。ARTADE2はこの情報を利用し、RNA分子の全長構造を再構築する

実際にARTADE2の性能を評価するため、理研植物科学研究センターの協力の下、シロイヌナズナから取得したRNAを用いてmRNA-seqを行い、このデータに対してARTADE2を適用した結果、予測したRNA全長構造の92.6%を、既知のRNA構造に対して正しく再構築することに成功した。この結果は、従来よく利用されている既存ソフトウェア(米メリーランド大学が開発したCufflinks)の78.6%を上回る結果となったという。

図2 ARTADE2結果の精度検証結果。ARTADE2(左から1番目、3番目)とCufflinks(2番目、4番目)それぞれの結果を既知RNA全長構造と比較し、縦軸に被覆率が示されている。ここでは箱が上に表示されるほど、予測構造と既知構造が一致していることが表されている。
予測構造の被覆率:左から1、2番目は、予測結果に対する被覆率の分布が示されている。予測したRNAの長さのうち、どれだけの長さが既知構造と対応していたかを計算してその分布がプロットされている。
既知構造の被覆率:左から3、4番目は、既知構造に対する被覆率の分布を示す。既知のRNAの長さのうち、どれだけの長さが予測構造と対応しているかを計算してその分布がプロットされている。この分布の比較により、全長構築の成功率はARTADE2(3番目)がCufflinksの結果(4番目)よりも優れていることが判明した。なお、文中の全長構造の成功率の計算では、既知RNA構造の80%以上の領域を予測できている場合を成功としている

また、トランスクリプトーム解析に用いられるゲノムタイリングアレイの結果にも、シロイヌナズナのデータに対してARTADE2を適用した結果、1,000個以上の新規遺伝子やアンチセンスRNAを新たに発見しており、この結果は、ゲノム配列の意味、意義の正確な理解を、これまで以上に進めていくことにつながるという。

さらに、ポジショナル相関解析に多変量解析の1つである因子分析手法を組み合わせることで、転写開始点の変化や選択的スプライシングによって生じるRNAの塩基配列の変化を同定し、それぞれのサンプルにおける変化を定量化する解析手法も開発。

図3 因子分析手法による選択的スプライシング領域の同定と変化の定量化。
上段:選択的スプライシングが生じるRNAのポジショナル相関解析例。青矢印が選択的スプライシングによるイントロンの変化。この影響を受ける領域は、領域内での相関は高いがRNAの他の領域との相関は低い特徴を持つ。
中段:ARTADE2によるRNA構造の再構築結果と、対応する既知遺伝子のエキソン構造、因子分析による選択的スプライシング領域の同定結果。青矢印は上段で示す領域と対応。ポジショナル相関解析で示される選択的スプライシング領域は既知のそれと対応し、因子分析によりこの領域をポジショナル相関行列の第2因子として同定することを実現した。
下段:因子分析結果による、各解析サンプルの定量化結果。選択的スプライシング領域を同定すると同時に、各サンプルのRNA構造の変化を定量化できる。この場合、塩処理10時間後のサンプルで、選択的イントロンの使用率が上昇することが示されている

この変化は、そこから翻訳されるタンパク質の配列やタンパク質への翻訳効率に変化をもたらすほか、RNA分子そのものが機能分子として振る舞う例も多く知られているため、トランスクリプトームの変化は、ゲノムの情報と細胞の表現形質をつなぐ重要な要素となる。そのため、ARTADE2はゲノム、トランスクリプトーム、プロテオーム(細胞中のタンパク質全体)、フェノーム(細胞・個体の持つ表現形質の総体)という複数階層のオミックス研究を仲介する重要な技術となると研究チームでは説明するほか、ARTADE2は、複数のサンプルから得られたトランスクリプトームのデータからゲノム上の位置関係で転写活性の相関性を解析するため、サンプル数が増えるほどデータのノイズや偏りに対して頑強になり、解析精度が向上するため、近年急速に蓄積が進む次世代シーケンサデータの有効活用が可能となるとしている。

なお、今回の技術を活用することで、健常者と疾患者のRNAデータを比較・解析することで疾患の分子メカニズムの解明につながることが期待されるほか、疾患の予兆となるようなRNAの変化を探し、これを分子マーカーとして用いることで疾患を発見できる可能性もあり、疾患を未然に防ぐ「先制医療」への道筋になる可能性があるとする。

また、バイオ燃料やバイオプラスチックなどのバイオマス資源開発を目指すグリーンイノベーション分野でも、植物細胞内のRNAの構造や動態の理解が重要であるため、同技術を用いることで目標とする植物の効率的かつ正確なトランスクリプトームの構造やRNAの動態を捉えることが可能になることも期待できるようになるという。