研究課題/領域番号 |
23K21718
|
補助金の研究課題番号 |
21H03544 (2021-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2021-2023) |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 九州大学 |
研究代表者 |
丸山 修 九州大学, 芸術工学研究院, 准教授 (20282519)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2024年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2022年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | ゲノム立体構造情報 / 深層学習 / Hi-C / コンタクトマップ / 機械学習 / エンハンサー / プロモーター / 最大フロー / ギブス・サンプリング / 負例 / 還元 / Hi-Cデータ / 3Dゲノム / 立体構造 / ニューラルネットワーク / メチル化 / ベクトル表現 / CpGアイランド / ゲート型リカレント ユニット / 立体構造情報 / ゲノム / 相互作用 / 二値分類 / 立体構造言語 / 解像度 |
研究開始時の研究の概要 |
これまでゲノムは1Dのデータとして解析されてきた.しかし,近年Hi-Cなどの実験手法により,ゲノムの領域間の近接情報が得られるようになった.本研究は,従来の1D情報に加えて3D情報も駆使し,細胞の機能の解明を目指して,次の課題に取り組む: 1. Hi-Cデータから得られるゲノム領域間の近接情報を表すコンタクトマップ(CM)の解像度を高める機械学習手法の開発. 2. Hi-C CMを用いた遠位プロモーターとエンハンサーの相互作用同定問題を解く計算手法の開発. 3. Hi-C CMを用いた,ゲノム立体構造情報と遺伝子発現制御機構の関係の解明.
|
研究実績の概要 |
本研究の目的は,次世代シーケンサーを活用して得られるクロマチンのコンタクト情報を有効活用する情報科学的手法の研究である.近年Hi-C法の実験により,ゲノムの二つの領域の接触頻度情報が得られるようになり,このデータを組み込んだ数理モデルの構築と有効活用方法の開発が急務の課題となっている. そのような中,本年度の研究費で,初年度から継続的に実施している「エンハンサー・プロモーター間相互作用予測のための質の高い負例データ集合の作成方法の研究」を展開した.この問題の正例であるエンハンサー・プロモーター間相互作用は,Hi-Cデータの解析により決まるものである.一方,負例は人工的であり,学習モデルがうまく最適化されるように設計する必要がある. このような中,負例集合が満たすべき新たな条件として,各エンハンサーとプロモーターの出現回数が正例集合と負例集合において均衡しなければならないとう条件を提案した.しかし,ながらこのような条件を満たす負例集合を同定することは自明でないため,出来るだけこの条件に近い解である負例集合を同定する手法を開発した.一つは最大フロー問題に還元する形で問題を解く手法であり,もう一つは,提案した条件の充足度を評価する評価関数を用いて設計した確率分布に対するギブス・サンプリング・アルゴリズムである.これらにより生成された負例集合に対して,2種類の既存の予測手法をテストしたところ,双方において予測精度の改善が示された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定した個別課題を一つ解決することが出来た.
|
今後の研究の推進方策 |
最終年度のため,未発表の研究を成果として形にする.とくに,Hi-Cコンタクト行列の再構成の課題を解決する.
|