研究課題/領域番号 |
20K07324
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分48040:医化学関連
|
研究機関 | 浜松医科大学 |
研究代表者 |
吉田 秀一 浜松医科大学, 医学部, 助教 (10580574)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | 遺伝子型-表現型予測 / データマイニング |
研究開始時の研究の概要 |
遺伝性疾患の責任遺伝子の解明が進む一方、生み出される膨大な候補バリアントから、疾患原因遺伝子変異を絞り込むことは容易ではない。他方、人工知能の一種である機械学習法が様々な分野で成果を上げ、盛んに利用されている。機械学習法は、学習データの質が予測モデルの性能を大きく左右するが、生命科学分野では様々な制約から予測性能を担保し得るのに十分な学習データを準備できない場合も多い。そこで本研究では、これまでに公共のデータベースに蓄積された生物学・ゲノム医科学的知見を活用することで、機械学習法における学習データの偏りを補完した新たな遺伝子型‐表現型予測手法の開発を目的とする。
|
研究実績の概要 |
人工知能(AI)による機械学習や深層学習が様々な分野で成果を上げており、盛んに利用され始めている。機械学習法は、学習データの質が予測モデルの性能を大きく左右するが、生命科学分野では様々な制約から予測性能を担保し得るのに十分な学習データを準備できない場合も多い。そこで本研究では、これまでに公共のデータベースに蓄積された生物学・ゲノム医科学的知見から新たに定義する“信頼度”を活用することで、機械学習法における学習データの偏りを補完する新たな遺伝子型‐表現型予測手法の構築を目指している。 今年度は、モデル疾患を対象に真のデータと疑似的な偽のデータとの区分に最適な“信頼度の閾値”の同定と分類精度の評価を交差検証法により行った。しかしながら、本手法を適用することが、必ずしも予測精度の向上につながらないことが新たな課題として浮かび上がった。特に複数の生物学的知見により得られた“信頼度”は、予測精度の向上につながると期待していたが、必ずしもそのような結果は得られなかった。互いの知見が矛盾する結果を示唆している場合や交絡因子の影響などが予測精度向上を妨げる要因として考えられ、現在、“信頼度”を定義する統計学的手法についても再検討している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
今年度(令和4年度)が最終年度であったが、令和2~3年度に新型コロナ感染症の感染拡大による教育業務の増大(オンライン講義・実験の準備)及び、県を跨ぐ移動自粛による研究打ち合わせや学会への参加見合わせなどによる研究の遅れのため、研究期間を1年延長した。従って、進歩状況は遅れていると評した。
|
今後の研究の推進方策 |
前年度に引き続き、モデル疾患データセットを用いる交差検証によって最適な信頼度の閾値設定を引き続き行うとともに、新たに見出された課題の解決、モデル疾患以外の遺伝性疾患の遺伝子型‐表現型解析への本手法の有効性の評価を行う。
|