Development of a deep learning model to predict diverse mitochondrial targeting signals in parasites
Project/Area Number |
23K16986
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
久米 慶太郎 筑波大学, 医学医療系, 助教 (70853191)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
|
Keywords | ミトコンドリア輸送 / ミトコンドリア / 深層学習 / 機械学習 / タンパク質輸送シグナル / 分子進化 / AI |
Outline of Research at the Start |
現在、細胞の中のミトコンドリアという器官にどのようなタンパク質が輸送されるのかを予測するAIが数多く開発されています。しかしその多くはヒトなどが対象で、寄生虫には適用できません。そのため寄生虫のデータから新しい薬の開発に役立つような情報を得ることには活用できていません。そこで本研究では、学習用のデータセットを新たに作成し、寄生虫を含む多様な生物に適用可能な、ミトコンドリア関連タンパク質予測AIを開発することを目指しています。
|
Outline of Annual Research Achievements |
深層学習を利用した、タンパク質の細胞内局在を予測する人工知能(AI)は既に多数発表されているが、これらのほとんどは事実上ヒトを含む一部のモデル生物を対象としたものであった。これらの先行研究において学習対象となっていない非モデル生物には医学・生物学的に重要である様々な真核寄生生物(寄生虫)やその近縁種が含まれていることから、本研究ではそれらの各系統においてそれぞれに近縁な自由生活種を含めてmt輸送シグナルを予測するモデルを開発し、寄生虫症研究の基盤情報の蓄積に貢献することを目的としている。令和五年度の成果については以下の2点に分けて記述する。 ①学用習データセットの構築:研究開始時点で既に作成・保持していた学習用データセットを本研究で利用できる形に再整理し、これを②で示すパフォーマンス検証実験に用いた。また、このデータセットに対して、文献調査等によって新たに取得した配列データを学習のためのラベル情報とともに追加した。このデータセットの拡充は次年度も継続して実施する予定である。 ②予測モデルの学習・検証:①のデータセットを用いた予測パフォーマンスの検証実験を行った。また、先行研究において採用されているモデルを利用した転移学習を行い、これについても予測パフォーマンスの検証を行った。その結果、bidirectional-LSTM + CNN を採用したモデルがより良いパフォーマンスを示す傾向にあることが示された。一方で、強力な学習手法であることから学習用データセットの不均衡性がパフォーマンスに悪影響を与えていることが示唆された。この結果をふまえ、研究計画を前倒しして、より適した予測モデル構造の探索を開始した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
令和五年度において、当初の研究計画よりも早期に計算機を導入することができた。そのため、研究計画において令和語年度に実施予定としていた、先行研究等で採用されたモデル構造を利用した場合の予測パフォーマンスの検証および転移学習による予測パフォーマンスの検証を早期に実施することが可能となり、次年度に予定していたより適したアーキテクチャの探索に取り掛かることができていることから、当初の計画以上に進展しているといえる。
|
Strategy for Future Research Activity |
令和六年度は、令和五年度に引き続き、より適した予測モデルのアーキテクチャ探索に取り組む予定である。この探索は、非常に多くのアーキテクチャに対してフルスクラッチから学習を行う必要があるため、令和六年度は主としてこれに取り組む予定である。 また、計算機のリソースをこれに使用している間に、並行して学用習データセットの構築・充実を令和五年度より引き続き実施する予定である。特に、当初の令和五年度における研究計画よりも進展が見られているため時間的な余裕があること、パフォーマンス検証実験においてデータセットの正解・不正解データの不均衡性が学習に悪影響を与えていることが示唆されたことから、この影響を軽減するため新たなデータを取得する生物学的実験の実施を計画している。
|
Report
(1 results)
Research Products
(2 results)