2021 年度実施状況報告書

データマイニングと生物学的知見による信頼度を活用した遺伝子型-表現型予測法の開発

研究課題

研究課題/領域番号	20K07324
研究機関	浜松医科大学
研究代表者	吉田秀一浜松医科大学, 医学部, 特任助教 (10580574)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	遺伝子型-表現型予測
研究実績の概要	人工知能（AI）による機械学習や深層学習が様々な分野で成果を上げており、盛んに利用され始めている。機械学習法は、学習データの質が予測モデルの性能を大きく左右するが、生命科学分野では様々な制約から予測性能を担保し得るのに十分な学習データを準備できない場合も多い。そこで本研究では、これまでに公共のデータベースに蓄積された生物学・ゲノム医科学的知見から新たに定義する“信頼度”を活用することで、機械学習法における学習データの偏りを補完する新たな遺伝子型‐表現型予測手法の構築を目指している。今年度は、前年度に構築したモデル疾患の学習データの個々の変異について、公共のデータベースに蓄積された生物学・ゲノム医科学的知見の有用性から信頼度を確率として付与した。続いて、学習データを信頼度に従って、真のデータと“疑似的な偽のデータ（信頼度の低い真のデータ）”に分類した。この際、真のデータと疑似的な偽のデータとの区分に最適な信頼度の閾値を交差検証により検証した。また、この結果をフィードバックさせて、前年度に行った変異情報と実験的な機能解析や疾患との関連性が紐づけされた情報から任意の変異に対する“信頼度”を定義する統計学的手法についても再検討している。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由今年度は、比較的順調に研究が遂行できた一方で、前年度に新型コロナ感染症の感染拡大によるオンライン講義等の教育業務増大に伴う影響により“遅れている”と評していた分を挽回するまでは至っていないため、“やや遅れている”とした。
今後の研究の推進方策	今後は、モデル疾患データセットを用いる交差検証によって最適な信頼度の閾値設定を引き続き行うとともにモデル疾患以外の遺伝性疾患の遺伝子型‐表現型解析への本手法の有効性を評価する。
次年度使用額が生じた理由	2022年3月の学会への出張手続きを進めていたが、学会事務局からの新型コロナウイルスの感染拡大によるまん延防止対象都道府県からの現地参加自粛要請を受けて、急遽、現地参加を見送った。その結果、本学会への出張旅費相当分が次年度使用額として生じた。当該研究費は、次年度の学会への参加旅費として活用を予定している。