理研、ENCODE計画に参加してヒトゲノムの80%の領域に機能があることを解明

理化学研究所(理研)は9月6日、同研究所が参加する国際プロジェクト「ENCODE(エンコード)」が5年をかけて、「DNAエレメントデータ」と呼ばれる遺伝子由来のデータを収集して解析し、ヒトゲノムの80%の領域に機能があることを明らかにしたと発表した。

理研オミックス基盤研究領域は、独自の遺伝子解析技術「CAGE法」を用いて、DNAからRNAが合成される時に重要な役割を持つ領域である「遺伝子転写開始点」の解析に貢献した。これは、理研OSCゲノム機能研究チームのピエロ・カルニンチ(Piero Carninci)チームリーダーらによる研究成果だ。国際プロジェクトのそれぞれの成果は、英科学雑誌「Nature」をはじめとする複数の学術誌に合計30本掲載され、米国国立衛生研究所(NIH)やNatureからもプレスリリースが行われる。なお今回の研究成果については、「Nature」2012年9月6日号に掲載された。

ヒトゲノム情報は生命体を司る設計図であり、解読することでさまざまな生命の仕組みを解き明かすことが期待されている。しかし、30億塩基といわれるヒトゲノムの機能の多くが、未だに謎に包まれたままだ。

2003年にスタートした国際プロジェクト「ENCODE」は、ヒトゲノムにコードされているすべての機能要素を解明し、複合的に解析することを目指している。解析に関する「転写領域」、「転写因子結合部位」、「クロマチン構造」、「ヒストン修飾」といった要素をヒトゲノム上にマッピングするためには、機能と塩基配列を関係づけるさまざまなデータが要求されるのはいうまでもない。そこで、優れたゲノム解析方法を有する5カ国(スペイン、米国、イギリス、日本、シンガポール)にまたがる32の研究機関が同プロジェクトに参加して、DNAエレメントデータの収集とその解析に挑んできた。

その中で理研OSCは、19研究機関と協力して、主に転写に関わる機能解析を解明するためのデータ収集と解析を担当し、独自に開発されたCAGE法を用いて転写開始点を網羅的に同定することを目指した。「Bリンパ芽球様細胞」などを含んだ15種のヒト由来細胞のRNAを核由来と細胞質由来に分け、1種類ずつ解析。さらに核由来RNAから「クロマチン」、「核質」、「核小体」の情報を得るため、この内の1種(K562細胞株)について、これら3つに分別した解析が行われた。

以上の方法により分別された各細胞成分における抽出RNAは、その長さによって200塩基以上のロングと、それ以下のショートに分類した。さらにロングは、タンパク質のアミノ酸配列をコードしているメッセンジャーRNA(mRNA)とそれ以外のRNAとに分けて、これらを対象に塩基配列や転写開始点などの特徴が調べられた次第だ。

CAGE法で同定された転写開始点(CAGEデータ)は、ENCODEのほかの研究機関から得られた「ヒストン修飾」や転写因子結合データ、「プロモータ」における転写活性との詳細な解析、そして「末端エンハンサー領域」などのデータと総合して解析し、ヒストン修飾や転写因子結合部位データと転写活性の関係を予測するモデルを構築した(画像1～4)。画像の1～4は、ヒストン修飾と転写印紙結合とそれぞれの転写活性の関係を示したものだ。

画像1(左)は、ヒストン修飾から予測された転写配列(横軸)とCAGEデータによる転写活性の実測値(縦軸)。ヒストン修飾から予測される転写活性と実際の転写量に相関があることから、この転写活性予測モデルの妥当性が示唆される。画像2は、ヒストン修飾のタイプの内、より転写活性に関与していると予測されたもの(棒グラフの高さは説明変数の相対的重要度(IOV)を示す)。上段はヒストン修飾の分類による重要度推定、下段は数量的モデルによる重要度推定を示す。このデータが転写量実測値との相関性解析に用いられる

画像3(左)は、DNAへの転写因子結合パターンから予測された転写配列(横軸)とCAGEデータによる転写活性実測値(縦軸)。転写因子結合パターンから予測される転写活性と実際の転写量に相関があることからこの転写活性予測モデルの妥当性が示唆される。画像4は、転写因子結合パターンの内、より転写活性に関与していると予測されたもの(棒グラフの高さは説明変数の相対的重要度(IOV)を示す)。上段は転写因子の分類による重要度推定、下段は数量的モデルによる重要度推定を示す。このデータが転写量実測値との相関性解析に用いられる

また、CAGEデータの内18%は繰り返し配列と重なることが判明。この頻度は遺伝子内領域における転写開始点のマッピングに比べ明らかに高いこと、つまり繰り返し配列の転写活性がより高く、ある特徴的な領域に偏って存在しており、なんらかの機能を有していることが示唆された。

さらに、CAGEデータはたとえわずかな量であっても、細胞特異的に転写効率を高めるエンハンサー領域を示すことできるため、これまで難しかったその特徴解析を可能にした(画像5・6)。

画像5(左)と6は、エンハンサー領域における転写についてのデータ。画像5は、エンハンサー領域付近のRNAパターン。赤はプラス鎖(DNAの5'末端から3‘末端の方向に写し取られているもの)。青はマイナス鎖(DNAの3'末端から5‘末端の方向に写し取られているもの)。横軸は、エンハンサー中心部からの相対的距離、縦軸:エンハンサーRNA隣接度。

3つのグラフは、上からそれぞれ「ポリアデニル化RNA配列」、CAGEデータ、ポリアデニル化していないRNA配列によるエンハンサーポジションの予測だ。エンハンサーの中心(図ではポジション0)に近づくにつれ、発現が活性化されると考えられるため、エンハンサー付近のRNA配列の発現頻度によりエンハンサー領域が予測される。

画像6は、エンハンサー領域付近のクロマチン状態。赤はCAGEデータ以外のRNA、青はCAGEデータ(転写開始部位)。RNAポリメラーゼII結合部位(POL2)は、転写開始部位(CAGEデータ)と考えられるが、ヒストン修飾による転写活性化については、CAGEデータの方が必ずしもより頻度が高いわけではなく、さまざまなパターンが見られる。


エンハンサー領域における転写。画像5(左)は、エンハンサー領域付近のRNAパターン。画像6は、エンハンサー領域付近のクロマチン状態