作物のゲノムデータ(DNA情報)を大幅に圧縮しながら、収量や草丈などの性質を高精度に予測する新しい深層学習手法「ConvCGP」を開発したと、東京大学と岩手大学でつくる研究グループが発表。DNA情報から有望な品種を効率的に選べるようになり、品種改良の高速化やコスト削減が期待されるとしている。

  • DNA情報を98%圧縮し、収量などを高精度予測する研究の概要 出所:岩手大学ニュースリリースPDF

    DNA情報を98%圧縮し、収量などを高精度予測する研究の概要 出所:岩手大学ニュースリリースPDF

東京大学大学院農学生命科学研究科の雷帆タンジラ特任助教と岩田洋佳教授、岩手大学理工学部の金天海准教授(研究当時)、同大学農学部・次世代アグリイノベーション研究センターの下野裕之教授、同大学理工学部・次世代アグリイノベーション研究センターの木村彰男教授による研究成果。詳細は学術誌「The Plant Genome」に4月19日付で掲載されている。

研究成果のポイント

  • 数百万〜1,000万以上の遺伝マーカーを含むゲノムデータを、最大98%圧縮しても高い予測精度を維持する手法を開発
  • データ圧縮により計算時間とデータ保存コストを大幅削減
  • イネとトウモロコシのデータで、従来手法よりも高い予測精度を達成
  • DNA情報から有望な品種を効率的に選びだす技術として、品種改良の加速に寄与

作物の品種改良では、収量や品質、環境ストレスへの耐性などに優れた品種を効率的に選ぶことが重要とされる。近年はDNA情報をもとに、収量や草丈といった作物の性質を予測する「ゲノミック予測」が広く用いられ、実際に栽培する前に有望な個体を選抜することで、品種改良の期間短縮と効率化が進んでいる。

しかしゲノミック予測では、数百万から1,000万以上の遺伝マーカーを含むDNA情報(DNA上の多数の遺伝マーカーの情報)を扱うため、データが大規模化。計算時間やデータ管理の負担が大きく、特に大規模な育種プログラムで課題となっていた。

研究グループは、こうした課題解決のため、深層学習(データの特徴を自動的に学習する人工知能の一種)を用いた新手法「ConvCGP」を開発。オートエンコーダによってDNA情報を圧縮し、畳み込みニューラルネットワーク(CNN)によって作物の性質を予測する二段階の構造となっており、重要な遺伝情報を保持したまま効率的に予測できる点を特徴とする。

  • 提案手法「ConvCGP」の概要 出所:東京大学ニュースリリース

    提案手法「ConvCGP」の概要 出所:東京大学ニュースリリース

イネやトウモロコシの大規模データを用いた検証では、データを93〜98%(元データの2〜7%)まで圧縮しても、高い予測精度を維持できることを確認。特に、約70万マーカーのイネデータや約1,170万マーカーのトウモロコシデータにおいても、圧縮後のデータから高精度な予測ができたとしている。

計算効率も大幅に向上したとしており、たとえばイネのデータでは、予測に要する時間が約2分50秒から約14秒へと短縮。大規模データでは1日以上かかっていた計算が、数十分程度まで縮まったという。

  • イネのDNA情報圧縮後の予測精度をグラフ化したもの。最大98%圧縮しても、収量や草丈などの性質の予測精度がほぼ維持されることを示している。※FTAA:アーカンソーにおける出穂期, FLL:止葉長, FLW:止葉幅, AP:芒の有無, PNPP:株当たり穂数, PH:稈長, PL:穂長, PPBN:一次枝梗数, SNPP:穂当たり粒数, FPP:穂当たり小花数, PF:稔実率, SL:粒長, SW:粒幅, SLWR:粒長幅比, BR:いもち病抵抗性, AC:アミロース含量, ASV:アルカリ崩壊値, PC:タンパク質含量 出所:東京大学ニュースリリース

    イネのDNA情報圧縮後の予測精度をグラフ化したもの。最大98%圧縮しても、収量や草丈などの性質の予測精度がほぼ維持されることを示している。※FTAA:アーカンソーにおける出穂期, FLL:止葉長, FLW:止葉幅, AP:芒の有無, PNPP:株当たり穂数, PH:稈長, PL:穂長, PPBN:一次枝梗数, SNPP:穂当たり粒数, FPP:穂当たり小花数, PF:稔実率, SL:粒長, SW:粒幅, SLWR:粒長幅比, BR:いもち病抵抗性, AC:アミロース含量, ASV:アルカリ崩壊値, PC:タンパク質含量 出所:東京大学ニュースリリース

さらに、GBLUPやLasso、サポートベクターマシンといった従来手法と比べても、多くの性質においてより高い予測精度を示したとしており、開花時期や草丈、病害抵抗性といった複雑な遺伝的背景を持つ性質に対しても安定して予測できたとのこと。この新手法は、圧縮率を用途に応じて調整できるため、大規模スクリーニングから精密な品種設計まで柔軟に対応できるという。

  • トウモロコシのDNA情報を用いて、ConvCGPと従来手法(GBLUPやLassoなど)との予測精度を比較しグラフ化したもの。多くの性質において、従来手法よりも高い予測精度を示すとしている。※ATI:葯–雄穂間隔, CW:穂芯重, DTA:雄穂開花日数, DTS:絹糸抽出日数, DTT:雄穂出穂日数, EH:着雌穂高, EL:穂長, ELL:穂位葉長, ELW:穂位葉幅, ERN:穂列数, EW:穂重, KNPE:穂当たり粒数, KNPR:列当たり粒数, KWPE:穂当たり粒重, LBT:不稔先端長, PH:草丈, SAI:絹糸–葯間隔, STI:絹糸–雄穂間隔, TBN:雄穂分枝数, TL:雄穂長 出所:東京大学ニュースリリース

    トウモロコシのDNA情報を用いて、ConvCGPと従来手法(GBLUPやLassoなど)との予測精度を比較しグラフ化したもの。多くの性質において、従来手法よりも高い予測精度を示すとしている。※ATI:葯–雄穂間隔, CW:穂芯重, DTA:雄穂開花日数, DTS:絹糸抽出日数, DTT:雄穂出穂日数, EH:着雌穂高, EL:穂長, ELL:穂位葉長, ELW:穂位葉幅, ERN:穂列数, EW:穂重, KNPE:穂当たり粒数, KNPR:列当たり粒数, KWPE:穂当たり粒重, LBT:不稔先端長, PH:草丈, SAI:絹糸–葯間隔, STI:絹糸–雄穂間隔, TBN:雄穂分枝数, TL:雄穂長 出所:東京大学ニュースリリース

今回の研究で開発された技術は、DNA情報から作物の性質を迅速に予測し、有望な品種を効率的に選べるようになり、品種改良の高速化やコスト削減につながると期待されている。また、データ処理に伴う計算資源の削減にもつながり、データ駆動型農業の効率化や持続可能な農業(GX:グリーントランスフォーメーション)の推進にも寄与するとのこと。

研究グループは今後、環境データとの統合や他作物への応用を進めることで、より高度な予測と実用化をめざす。