研究課題/領域番号 |
20K12059
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
木立 尚孝 東京大学, 大学院新領域創成科学研究科, 准教授 (80415778)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 一細胞シーケンシング / バイオインフォマティクス / 確率微分方程式 / 機械学習 / トランスクリプトーム / バイオテクノロジー |
研究開始時の研究の概要 |
計測技術の進歩により、発生過程での生物の形の変化や、生体内での遺伝子活性化の時空間的な変化を網羅的に計測することができるようになってきた。これに伴い、データを表現する数理モデルも、より物理化学法則や既知の生物知識を精密に表現できるものに置き換えて行く必要がある。本研究では、このような複雑な数理モデルのパラメータをデータから決定する新しい機械学習手法を開発する。
|
研究実績の概要 |
DNAシーケンシング技術やカメラ性能の向上により生物過程の時空間情報が急増している。これにより遺伝子間相互作用の時間的因果関係や、細胞・組織の3次元的配置が生物の振る舞いへ与える効果などを厳密に調べることが可能になってきた。そこで本研究では、生命過程のより高度なモデリングを可能にするための道具として、非線形確率偏微分方程式のパラメータをデータから推定する汎用的な機械学習技術の開発・実装を行うことを目標としている。我々の手法により、既知の自然法則を機械学習モデルに取り込むことが容易になり、時空間データから生物状態変化を引き起こすメカニカルな機構を推定する研究が広まることが期待される。2022年度は確率微分方程式のパラメータを推定する新規のアルゴリズムの開発及び実装を行った。このアルゴリズムは近年人工知能分野で盛んに研究されている正規化フローの理論をもちいて、ブラウン運動過程や、オルンスタイン・ウーレンベック過程などの事後確率分布が解析的に求まる確率部微分方程式の状態変数を変数変換することにより、ライト・フィッシャーモデルなどの非線形確率微分方程式のパラメータを推定することを可能にする技術である。この技術を用いることにより、より疎な測定データの場合に方程式のパラメータを推定できるようになると期待される。2023年3月までにアルゴリズムの実装を終えソフトウェアの各モジュールの性能評価を現在は行っているところである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2021年度までのC++実装を用いたパラメータ推定アルゴリズムはスレッドやGPUなどを効率的に使えないという欠点があった。これに対し2022年度では、アルゴリズムの刷新に加えて、Pythonプログラミング言語のライブラリJAXを用いて実装を一からやり直した。このため計画の進展が遅れた。ただ新しい実装は計算の大規模化が容易なため今後の計算機実験が効率的に進むようになると期待している。
|
今後の研究の推進方策 |
ソフトウェアの各モジュールの性能評価の後にシミュレーションデータを用いた、ソフトウェア全体の性能評価を行う。その後にSmart-Seqデータを解析してミトコンドリアDNAのアレル頻度からライト・フィッシャー確率微分方程式のパラメータを推定し、その生物学的意味について議論する。
|