産総研など、誤発見の確率を示すP値を計算するアルゴリズム「LAMP」を開発

科学技術振興機構(JST)、産業技術総合研究所(産総研)、東京工業大学(東工大)、理化学研究所(理研)の4者は7月23日、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム「LAMP(Limitless-Arity Multiple testing Procedure:無限次数多重検定法)」を開発したと共同で発表した。

成果は、産総研生命情報工学研究センターの津田宏治主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東工大大学院情報理工学研究科計算工学専攻の瀬々潤准教授、理研統合生命医科学研究センターの岡田眞里子チームリーダーらの共同研究チームによるもの。研究はJST課題達成型基礎研究の一環として行われ、詳細な内容は米国東部時間7月22日付けで米科学雑誌「米科学アカデミー紀要(PNAS)」に掲載された。

自然科学では新しい現象を見つけた時、系のゆらぎや観測のあいまいさを考慮した上で、その結果の信頼性を担保する必要がある。科学データの解析において、この信頼性担保には、統計検定が欠かせない(画像1)。統計検定では、誤発見の確率を示す検定値、つまりP値が計算され、あるしきい値(一般には、0.05)以下の場合にのみ、信頼し得る科学的発見として認められ、論文に記すことができる(ほとんどの科学学術雑誌では、P値のない結果を出版することはできない)。

P値はデータから発見された事柄が誤りである確率のことだ。AはBを引き起こすという事柄に関するP値は、AとBが完全に独立であるという仮定(帰無仮説)のもとで、得られた観測データより極端なものが得られる確率として計算される。

画像1。科学における統計検定の役割

観測できる対象(例:DNAの変異)が増えると、誤発見の確率も高くなる。誤発見を避けるには、対象数が増えれば増えるほど、発見の基準を厳しくしなくてはならない。一般的な「多重検定法では、P値に大きな補正係数を掛けて(補正P値)、それでも0.05以下の場合のみ発見とみなす。

最もシンプルでよく用いられる多重検定法の1つである「ボンフェローニ法」では、n個の対象があれば、P値にnを掛けて補正し、それでも0.05以内であれば、発見として認める。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合がある。

例えば画像2のように、左図では、対象数が少ないために対象Cの補正P値は0.05以下であって発見として認められるが、8個に増加すると補正係数が上がってしまって補正P値が0.05を越えてしまい、結果として発見として認められなくなってしまうのである。

中でも複合的な組み合わせ因子を考えると、対象数nが爆発的に大きくなるため、ほぼ発見は不可能となってしまう。このため、細胞のiPS化を引き起こす4つの転写因子などに見られる組み合わせ因子を、データから見つけ出すことは困難だったといういきさつがある。

画像2。ビッグデータのパラドックス

そこで研究チームが今回、従来よりも格段に正確な補正P値を計算できるアルゴリズムとして開発したのが、「LAMP(Limitless-Arity Multiple testing Procedure、無限次数多重検定法)」だ(画像3)。LAMPでは、出現頻度の低い組み合わせは誤発見率を変化させないという数理的性質に注目し、超高速アルゴリズムを用いて無為な出現頻度の低い組み合わせを特定し取り除くことによって、補正係数を大幅に削減している。

またLAMPでは通常のボンフェローニ法と比べて、統計的な検定の精度を保ったままで、補正係数を十分に低くすることが可能だ。具体的には、従来のボンフェローニ法では、すべての組み合わせ因子の数を補正係数として用いるのに対し、LAMPでは、高頻度の組み合わせのみを数え上げることによって、補正係数を正当なレベルまで引き下げている。

実際、ヒトの乳がん細胞株の遺伝子発現データについて、この手法を用いた再解析が行われたところ、これまで見過ごされてきた最大8個の転写因子の組み合わせが乳がん細胞の増殖に関与していることが発見されたという。

画像3。LAMPによる組み合わせ因子発見。赤色で示した組み合わせ因子は、発見として認められる。頻度のしきい値は、アルゴリズムによって自動的に決定される

出現頻度の低い組み合わせが誤発見率を変化させないという事実は、1990年に米国のタローネによって明らかになっていたが、アルゴリズムを用いて、それらを実際に数えあげて、生命科学データに適用したのは今回が初めてとなる。生命科学で広く用いられている「FDR(False Discovery Rate)」による方法では、誤発見率については妥協することで、発見力を高めているが、この手法ではそのような妥協をせず、アルゴリズムのみによって発見力を大幅に高めることに成功した形だ。

今回の成果により、転写因子の組み合わせ効果の研究を初め、複数の遺伝子が原因となっている疾患の同定や多数の部位が関わる脳の高次機能の解明など、複合要因に起因する現象の解明が加速されることが期待されるという。さらに、複数の薬剤を組み合わせた創薬、多数の項目からなるアンケートの分析など、広く自然科学から社会科学分野の実験結果の評価に影響を及ぼすと考えられるとしている。