2020 Fiscal Year Annual Research Report
深層学習を用いた形質推定アルゴリズムの開発と有用品種のデザイン
Project/Area Number |
20J20016
|
Research Institution | Waseda University |
Principal Investigator |
松谷 太郎 早稲田大学, 理工学術院, 特別研究員(DC1)
|
Project Period (FY) |
2020-04-24 – 2023-03-31
|
Keywords | Genomic Selection / Transformer / Neural Network |
Outline of Annual Research Achievements |
深層学習のモデルをGenomic Selectionに応用するにあたり、どのようなモデルが適しているかを調べるためシミュレーション実験を行った。入力はイネゲノムのtarget-seqで得られるSNVデータを模倣したものを考え、今回はトイデータとしてマーカー数を100としている。出力は何らかの連続値を示す形質の表現型として、2つの遺伝子の相互作用項が大きく寄与するような確率的なモデルからサンプリングを行った。 訓練用に人工データを3750用意し、テストとして別に用意したデータを1250配列用意した。このようなデータに対してTransformerのエンコーダをL個(L=1,2,3)スタックしたモデルと、単純なFeedforward Neural Networkを適用したところ、推定精度はFNNが最も高い結果になった。 直感的にはTransformerはself-attentionを用いて配列の相互作用項をよく推定できるはずなので、今回の結果は不可解である。原因として今回のような単純なタスクにおいては全結合のFNNで非線形な相互作用を十分に捉えることができてしまったことや、Transformerのような複雑なモデルを学習するにはデータ数が少なかったことが考えられる。 今回設定したマーカー数100という値は現実のデータと比べるとかなり少なく、多くのパネルでは数万にも及ぶ。そのようなデータに対して深層学習のモデルをトレーニングする場合、更に多くのデータ数が必要になると考えられる。 しかし、今回の3750配列というトレーニングデータ数は現実の設定よりも多い値となっているため、最終的に実運用を目指すことを考えると、Transformerのような複雑なモデルを素直に適用することは難しいことが分かった。 また、修士課程在籍時のヒトがんゲノムに関する研究成果をまとめ、MDPI Genesで誌上発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
初年度では、計画通り深層学習モデルを用いたシミュレーション実験を行い、Transformerなどのattention機構を用いたモデルが、エピスタシスなどの遺伝子の相互作用を捉えることが可能であるという仮定の下で実験を行った。 しかしながら「研究実績の概要」の項でも述べた通り、現在のパブリックなデータベースでまとめられているようなデータの規模では、深層学習モデルをトレーニングするのに十分ではないことが分かった。 ネガティブな結果のみが得られた現在の状況のまま次年度の研究計画を遂行することは難しく、「今後の研究の推進方策」で述べるような、より基盤的な研究が必要である。 また、修士課程在籍時の研究成果と関連するような新たな研究テーマにも着手しており、本研究課題で得た突然変異に関する知見を用いて、ヒトがんゲノムにおける新たな解析手法を考案中である。
|
Strategy for Future Research Activity |
Transformerなどの複雑な深層学習モデルを適用するには、1.推定に利用するマーカー(すなわち説明変数)の数を減らす, 2. 用いるデータ数を増やす, の二通りの解決法が考えられる。データ数は公開されているデータベースに依存するため、私が積極的に着手することのできる課題は「推定に利用するマーカーの数を減らす」こととなる。 形質(すなわち目的変数)に大きく寄与するようなマーカーを選ぶというタスクは、回帰問題における変数選択の問題として古くから幅広い研究が行われているため、そのような研究例のサーベイを行い育種目的に適した手法を今回の問題に適用することを考えている。
また、現在本研究課題のサーベイの過程で得られた突然変異に関する知見を応用し、修士課程在籍時の研究成果と関連する新たな研究テーマに着手している。 こちらでは、がんゲノムのバルクシーケンシングのデータから腫瘍がどのように進化してきたかを推定するための手法を提案する。現在多くの手法では、Variant Allele Frequency (VAF)に基づいてどのような順番でゲノムに変異が蓄積したかを推定する手法が多い。我々の考案する手法ではVAFに加えて各変異のタイプを同時に考慮することで、より高精度な推定を可能にするものと期待している。
|