研究課題/領域番号 |
20K15773
|
研究機関 | 東京大学 |
研究代表者 |
小井土 大 東京大学, 医科学研究所, 特任助教 (40787561)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ディープラーニング / ゲノム解析 / エピスタシス |
研究実績の概要 |
遺伝因子の組合せ効果(エピスタシス効果)の同定は遺伝統計学が古くより探求してきた問いであるが、古典的統計学の手法では多重検定と計算量の問題に直面する。本研究では、疾患感受性多型の発現制御領域への集積に着目し、(1)臓器・細胞別の転写制御に対するエピスタシス効果を高精度・網羅的に得て、(2)それらと多因子疾患との関連を日欧バイオバンクの遺伝統計解析から検証する。特に(1)を達成するためのツールとして、臓器・細胞種別の発現制御モチーフ配列を数十kbのゲノム配列パターンから学習した高速な機械学習モデルを創出し、従来、特に発見困難な3つ以上の多型のエピスタシス効果の同定を目指す。 本年度は、「設定課題1.ゲノミクスAIの推論高速化」を中心に進めつつ、「設定課題2.cis-eQTLのエピスタシス効果の探索」についても検討を開始した。設定課題1ではまず、深層学習フレームワークTorch7で記述されていた従来法(DeepSEA Beluga, Zhou et al. Nat Genet. 2018) を深層学習フレームワークPytorchで再コーディングしつつ、学習・評価データも取得し、近年提唱されてきた種々の推論高速化に必要な手法を試行する基盤を構築した。画像の深層学習で報告のあった一定の学習条件における学習重みのスパース化を検討したが、70通りの学習条件を試してもDeepSEA Belugaでは高々0.03%のスパース化しか実現できず、予測精度が大幅に低下していた。そこでDeepSEA Belugaの設計そのものを見直した所、83%の重みを削減しつつも元のモデルと同等程度の予測精度を確認できた。設定課題2.ではエピスタシス効果を見るのに先立ち、1塩基でのin silico変異導入法による予測活性の変化が、大規模な実験(MPRA)から得られる変異効果と高い一致を示すことを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2020年度では、「設定課題1.ゲノミクスAIの推論高速化」の完遂と「設定課題2.cis-eQTLのエピスタシス効果の探索」のスタートを計画していた。 「設定課題1.ゲノミクスAIの推論高速化」については、大規模な比較検討の結果、ディープラーニングモデルの設計思想の見直しが大きく有効であることを確認できたが、最終的な設計を確定には至っていない。「設定課題2.cis-eQTLのエピスタシス効果の探索」については、申請者が開発した「転写物周辺±100 kbのゲノム配列からmRNA・ 非翻訳RNAの細胞種別転写を予測するゲノミクスAI」(M Koido et al. bioRxiv 2020)がMPRA結果に対し高い一致率を示すことを確認し、申請者が開発した手法をベースに手法を開発する方針で問題ないことを確認した。以上のように、特に設定課題1での若干の遅れがあるものの、設定課題2については順調に研究を開始できたと考えている。
|
今後の研究の推進方策 |
本研究は3年間にわたる計画である。初年度である2020年度では設定課題1での若干の遅れがみられた。2年目となる2021年では当初の予定に加えて、設定課題1の完遂、すなわち最終的な設計の確定を最優先で行う。具体的には、現在までに得られた83%の重みを削減よりも重みを削減しつつ、一方で予測精度も保つべく、2020年度までに画像の深層学習で報告のあった最新のモデル設計思想を取り入れる。なお、本検討に伴い、設定課題2の完遂を2021年度Q2までと計画していたが、2021年度末まで遅れこむ見込みである。 一方、2021年度からスタートする設定課題3. trans-eQTLのエピスタシス効果の探索については、設定課題1で得られた技術・ノウハウをそのまま流用したディープラーニングモデルの開発となるため、設定課題1の知見がまとまり次第、スタートする。
|
次年度使用額が生じた理由 |
コロナ禍により、旅費を使用する予定であった国内学会・国際学会などがすべてオンライン開催になったため、次年度使用が生じた。本繰越額については、当初の研究目的を達成するために効果的に研究を行うべく、AI橋渡しクラウド(産総研スパコン)の利用料金などの演算必要な経費としての使用を予定している。
|