2023 Fiscal Year Research-status Report
Development of deconvolution method for bulk RNA-Seq by conditional variational autoencoder
Project/Area Number |
23K11302
|
Research Institution | Shiga University |
Principal Investigator |
岩山 幸治 滋賀大学, データサイエンス学系, 准教授 (90737040)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Keywords | 生成モデル / トランスクリプトーム |
Outline of Annual Research Achievements |
bulk RNA-Seqを細胞種ごとの遺伝子発現パターンへ分解することを目的とし,細胞種ごとの遺伝子発現パターンを学習した生成モデルを利用し, bulk RNA-Seqのデータから細胞種ごとの遺伝子発現パターンを推定する手法の開発に取り組んでいる. 2023年度は,bulk RNA-Seqの細胞種・組織種への分解手法のテストケースとして,シロイヌナズナ個体のbulk RNA-Seqを根と葉という二つの組織の発現量へ分解することを試みた.植物の遺伝子共発現のデータベースATTED-II(Aoki et al. 2015)において共発現の計算に用いられたシロイヌナズナのRNA-Seqデータ21981サンプルのうち,根と葉の組織のサンプルそれぞれを使って生成モデルの学習及び最適なモデル構造の探索を行った.また,この学習された生成モデルに基づいてシロイヌナズナのバルクRNA-Seqデータから,根と葉それぞれの遺伝子発現量とその構成割合の推定を行うプログラムの開発を行った.開発したプログラムの性能を検証するため,疑似的に生成した個体レベルのbulk RNA-Seqデータに適用した.上記データに含まれる根と葉を同一個体から取得したサンプルについて,根と葉それぞれの発現データを混合することで,個体全体からのbulk RNA-Seqの疑似データを生成した.この疑似データに対して,開発したプログラムを適用し,根と葉それぞれにおける遺伝子発現量と混合割合の推定を行った.その結果,根と葉の混合割合やそれぞれの組織における発現量を概ね正確に推定できることを確認した. 最後に,複数の化学物質に曝露したシロイヌナズナの個体のbulk RNA-Seqデータを根と葉の発現量へ適用した.このデータの実験条件は,生成モデルの学習データからは大きく異なるため,一部でサンプルの属性と整合しない結果が得られている.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の最終的な目的であるbulk RNA-Seqデータの細胞種ごとの遺伝子発現パターへの分解の前段として,シロイヌナズナの個体から取得したbulk RNA-Seqデータの根と葉という組織への分解に取り組んだが,実際の実験データに対する性能評価が完了できなかった. 生成モデルの学習に用いたデータからは大きく異なる実験データへ適用した場合に,モデルが予期せぬ挙動を見せることが判明したため,生成モデルの学習と分解アルゴリズムの両面からさらなる検討を必要とする.
|
Strategy for Future Research Activity |
学習データと大きく異なる条件で取得されたシロイヌナズナのデータを正しく根と葉へ分解する方策を引き続き検討し,分解性能の検証を行う. 並行して,Single-Cell RNA-Seqの公開データを用いた生成モデルの学習に取り組む.
|
Causes of Carryover |
データ整理を行うための人件費を計上していたが,分析に適した形のデータを入手でき,その必要がなくなったため,次年度使用額が生じた.次年度に予定していたデータ分析作業の人件費として使用する予定である.
|