2020 Fiscal Year Research-status Report
データマイニングと生物学的知見による信頼度を活用した遺伝子型-表現型予測法の開発
Project/Area Number |
20K07324
|
Research Institution | Hamamatsu University School of Medicine |
Principal Investigator |
吉田 秀一 浜松医科大学, 医学部, 特任助教 (10580574)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 遺伝子型-表現型予測 |
Outline of Annual Research Achievements |
次世代シークエンサの普及により、遺伝性疾患の責任遺伝子の解明が進む一方、生み出される膨大な候補バリアントから、疾患の発症につながる真の原因遺伝子変異を絞り込むことは容易ではない。したがって、個々の候補バリアントのアミノ酸置換による機能的影響を定量的に見積もる統計学的手法が求められている。近年、人工知能による機械学習や深層学習が様々な分野で成果を上げており、盛んに利用され始めている。機械学習法は、学習データの質が予測モデルの性能を大きく左右するが、生命科学分野では様々な制約から予測性能を担保し得るのに十分な学習データを準備できない場合も多い。そこで本研究では、これまでに公共のデータベースに蓄積された生物学・ゲノム医科学的知見から新たに定義する“信頼度”を活用することで、機械学習法における学習データの偏りを補完する新たな遺伝子型‐表現型予測手法の構築を目指した。本年度は、公共のゲノムデータベース(OMIM、各種疾患データベース、UniProtの機能注釈など)に蓄積された知見から、変異情報と実験的な機能解析や疾患との関連性が紐づけされた情報から任意の変異に対する“信頼度”を定義する統計学的手法についての検討を行うとともに、それらを評価するための疾患変異データセットの構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナ感染症の感染拡大による講義・実験の急なオンライン化のため、Web講義・オンライン実験のコンテンツ準備等の業務が大幅に増え、当初予定していたエフォートでの研究推進が困難であったため。
|
Strategy for Future Research Activity |
今年度に検討を行った任意の変異に対する信頼度を付与する手法について、実際の疾患変異データセットを用いて評価することにより、最適な手法を探索する。この際、疾患変異データセットを信頼度に従って、真のデータと“疑似的な偽のデータ(信頼度の低い真のデータ)”に分類し、学習データセットとして用いる。分類精度は、学習データセットを用いた交差検証法により評価する。
|
Causes of Carryover |
新型コロナ感染症の感染拡大の影響により、学術集会等がオンラインで開催されたり、共同研究者との研究打ち合わせのための出張を取りやめたため、今年度は旅費として予算申請していた分の費用の支出がなく次年度使用額が生じた。新型コロナ感染症の状況次第ではあるが、今年度実施できなかった共同研究者との研究打ち合わせ等の旅費としての活用を予定している。
|