研究課題/領域番号 |
20K12059
|
研究機関 | 東京大学 |
研究代表者 |
木立 尚孝 東京大学, 大学院新領域創成科学研究科, 准教授 (80415778)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 一細胞シーケンシング / バイオインフォマティクス / 確率微分方程式 / 機械学習 / トランスクリプトーム |
研究実績の概要 |
DNAシーケンシング技術やカメラ性能の向上により生物過程の時空間情報が急増している。これにより遺伝子間相互作用の時間的因果関係や、細胞・組織の3次元的配置が生物の振る舞いへ与える効果などを厳密に調べることが可能になってきた。そこで本研究では、生命過程のより高度なモデリングを可能にするための道具として、非線形確率偏微分方程式のパラメータをデータから推定する汎用的な機械学習技術の開発・実装を行うことを目標としている。我々の手法により、既知の自然法則を機械学習モデルに取り込むことが容易になり、時空間データから生物状態変化を引き起こすメカニカルな機構を推定する研究が広まることが期待される。2022年度は確率微分方程式のパラメータを推定する新規のアルゴリズムの開発及び実装を行った。このアルゴリズムは近年人工知能分野で盛んに研究されている正規化フローの理論をもちいて、ブラウン運動過程や、オルンスタイン・ウーレンベック過程などの事後確率分布が解析的に求まる確率部微分方程式の状態変数を変数変換することにより、ライト・フィッシャーモデルなどの非線形確率微分方程式のパラメータを推定することを可能にする技術である。この技術を用いることにより、より疎な測定データの場合に方程式のパラメータを推定できるようになると期待される。2023年3月までにアルゴリズムの実装を終えソフトウェアの各モジュールの性能評価を現在は行っているところである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2021年度までのC++実装を用いたパラメータ推定アルゴリズムはスレッドやGPUなどを効率的に使えないという欠点があった。これに対し2022年度では、アルゴリズムの刷新に加えて、Pythonプログラミング言語のライブラリJAXを用いて実装を一からやり直した。このため計画の進展が遅れた。ただ新しい実装は計算の大規模化が容易なため今後の計算機実験が効率的に進むようになると期待している。
|
今後の研究の推進方策 |
ソフトウェアの各モジュールの性能評価の後にシミュレーションデータを用いた、ソフトウェア全体の性能評価を行う。その後にSmart-Seqデータを解析してミトコンドリアDNAのアレル頻度からライト・フィッシャー確率微分方程式のパラメータを推定し、その生物学的意味について議論する。
|
次年度使用額が生じた理由 |
当該年度ではアルゴリズムを実装し大規模な計算機実験を行う予定だったが、アルゴリズムの実装が遅れたために、大規模な計算機実験は次年度に持ち越すことになった。次年度は計算機実験の計算機使用量として次年度使用額を使う予定である。
|