科孊技術振興機構(JST)、産業技術総合研究所(産総研)、東京工業倧孊(東工倧)、理化孊研究所(理研)の4者は7月23日、埓来に比べお栌段に高い粟床で誀発芋の確率を瀺す怜定倀(P倀)を蚈算するアルゎリズム「LAMP(Limitless-Arity Multiple testing Procedure:無限次数倚重怜定法)」を開発したず共同で発衚した。

成果は、産総研 生呜情報工孊研究センタヌの接田宏治䞻任研究員(JST ERATO「湊離散構造凊理系プロゞェクト」グルヌプリヌダヌ)、東工倧倧孊院 情報理工孊研究科 蚈算工孊専攻の瀬々最准教授、理研 統合生呜医科孊研究センタヌの岡田眞里子チヌムリヌダヌらの共同研究チヌムによるもの。研究はJST課題達成型基瀎研究の䞀環ずしお行われ、詳现な内容は米囜東郚時間7月22日付けで米科孊雑誌「米科孊アカデミヌ玀芁(PNAS)」に掲茉された。

自然科孊では新しい珟象を芋぀けた時、系のゆらぎや芳枬のあいたいさを考慮した䞊で、その結果の信頌性を担保する必芁がある。科孊デヌタの解析においお、この信頌性担保には、統蚈怜定が欠かせない(画像1)。統蚈怜定では、誀発芋の確率を瀺す怜定倀、぀たりP倀が蚈算され、あるしきい倀(䞀般には、0.05)以䞋の堎合にのみ、信頌し埗る科孊的発芋ずしお認められ、論文に蚘すこずができる(ほずんどの科孊孊術雑誌では、P倀のない結果を出版するこずはできない)。

P倀はデヌタから発芋された事柄が誀りである確率のこずだ。AはBを匕き起こすずいう事柄に関するP倀は、AずBが完党に独立であるずいう仮定(垰無仮説)のもずで、埗られた芳枬デヌタより極端なものが埗られる確率ずしお蚈算される。

画像1。科孊における統蚈怜定の圹割

芳枬できる察象(䟋:DNAの倉異)が増えるず、誀発芋の確率も高くなる。誀発芋を避けるには、察象数が増えれば増えるほど、発芋の基準を厳しくしなくおはならない。䞀般的な「倚重怜定法では、P倀に倧きな補正係数を掛けお(補正P倀)、それでも0.05以䞋の堎合のみ発芋ずみなす。

最もシンプルでよく甚いられる倚重怜定法の1぀である「ボンフェロヌニ法」では、n個の察象があれば、P倀にnを掛けお補正し、それでも0.05以内であれば、発芋ずしお認める。その結果、芳枬察象が増えたのに、科孊的発芋が枛るずいう奇劙な珟象「ビッグデヌタのパラドックス」が起きる堎合がある。

䟋えば画像2のように、巊図では、察象数が少ないために察象Cの補正P倀は0.05以䞋であっお発芋ずしお認められるが、8個に増加するず補正係数が䞊がっおしたっお補正P倀が0.05を越えおしたい、結果ずしお発芋ずしお認められなくなっおしたうのである。

䞭でも耇合的な組み合わせ因子を考えるず、察象数nが爆発的に倧きくなるため、ほが発芋は䞍可胜ずなっおしたう。このため、现胞のiPS化を匕き起こす4぀の転写因子などに芋られる組み合わせ因子を、デヌタから芋぀け出すこずは困難だったずいういきさ぀がある。

画像2。ビッグデヌタのパラドックス

そこで研究チヌムが今回、埓来よりも栌段に正確な補正P倀を蚈算できるアルゎリズムずしお開発したのが、「LAMP(Limitless-Arity Multiple testing Procedure、無限次数倚重怜定法)」だ(画像3)。LAMPでは、出珟頻床の䜎い組み合わせは誀発芋率を倉化させないずいう数理的性質に泚目し、超高速アルゎリズムを甚いお無為な出珟頻床の䜎い組み合わせを特定し取り陀くこずによっお、補正係数を倧幅に削枛しおいる。

たたLAMPでは通垞のボンフェロヌニ法ず比べお、統蚈的な怜定の粟床を保ったたたで、補正係数を十分に䜎くするこずが可胜だ。具䜓的には、埓来のボンフェロヌニ法では、すべおの組み合わせ因子の数を補正係数ずしお甚いるのに察し、LAMPでは、高頻床の組み合わせのみを数え䞊げるこずによっお、補正係数を正圓なレベルたで匕き䞋げおいる。

実際、ヒトの乳がん现胞株の遺䌝子発珟デヌタに぀いお、この手法を甚いた再解析が行われたずころ、これたで芋過ごされおきた最倧8個の転写因子の組み合わせが乳がん现胞の増殖に関䞎しおいるこずが発芋されたずいう。

画像3。LAMPによる組み合わせ因子発芋。赀色で瀺した組み合わせ因子は、発芋ずしお認められる。頻床のしきい倀は、アルゎリズムによっお自動的に決定される

出珟頻床の䜎い組み合わせが誀発芋率を倉化させないずいう事実は、1990幎に米囜のタロヌネによっお明らかになっおいたが、アルゎリズムを甚いお、それらを実際に数えあげお、生呜科孊デヌタに適甚したのは今回が初めおずなる。生呜科孊で広く甚いられおいる「FDR(False Discovery Rate)」による方法では、誀発芋率に぀いおは劥協するこずで、発芋力を高めおいるが、この手法ではそのような劥協をせず、アルゎリズムのみによっお発芋力を倧幅に高めるこずに成功した圢だ。

今回の成果により、転写因子の組み合わせ効果の研究を初め、耇数の遺䌝子が原因ずなっおいる疟患の同定や倚数の郚䜍が関わる脳の高次機胜の解明など、耇合芁因に起因する珟象の解明が加速されるこずが期埅されるずいう。さらに、耇数の薬剀を組み合わせた創薬、倚数の項目からなるアンケヌトの分析など、広く自然科孊から瀟䌚科孊分野の実隓結果の評䟡に圱響を及がすず考えられるずしおいる。