研究課題/領域番号 |
21H03544
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 九州大学 |
研究代表者 |
丸山 修 九州大学, 芸術工学研究院, 准教授 (20282519)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2023年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2022年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | Hi-Cデータ / 3Dゲノム / 立体構造 / ニューラルネットワーク / コンタクトマップ / エンハンサー / プロモーター / Hi-C / 立体構造情報 / ゲノム / 相互作用 / 二値分類 / メチル化 / 立体構造言語 / 解像度 |
研究開始時の研究の概要 |
本研究の目的は生物実験で得られるゲノムの断片的立体構造情報を有効活用する情報科学的手法の研究である.近年Hi-C法の実験により部分的であるがゲノムの立体構造情報が得られるが,このデータからどれほどの情報を抽出できるかが急務の課題である.そこで3つの課題に取り組む: 1. Hi-Cデータから得られるゲノム領域間の近接情報を表すコンタクトマップ(CM)の解像度を高める機械学習手法の開発 2. Hi-C CMを用いた遠位プロモーターとエンハンサーの相互作用同定問題を解く計算手法の開発 3. Hi-C CMからゲノムの立体構造を予測する手法の開発.以上により立体構造言語としてのゲノムの数理的解析を実施する.
|
研究実績の概要 |
本研究の目的は生物実験で得られるゲノムの断片的立体構造情報を有効活用する情報科学的手法の研究である.近年Hi-C法の実験により部分的であるがゲノムの立体構造情報が得られるようになり,このデータからどれほどの情報を抽出できるかが急務の課題となっている.エンハンサー・プロモーター間相互作用は,ゲノムの3D構造を活用したメカニズムであり,遺伝子発現プロセスを解明する上で重要なプロセスである. このような中,申請研究の課題の一つであるエンハンサー・プロモーター間相互作用予測問題の予測精度の改善に取り組んでいる.エンハンサー・プロモーター間相互作用予測問題とは,エンハンサーとプロモーターの組が与えられたとき,これらが相互作用するか否かを判定する二値分類問題である.様々な予測手法が提案されているが,それらの多く(例えば,TargetFinderやEP2vecなど)で使用されている学習用データを染色体単位で分割した交差検証では学習が全くうまく行かないことが報告されている.その原因は,エンハンサーとプロモーターのランダムな組み合わせによる負例の生成方法であり,結果として,個々のエンハンサーやプロモーターの正負例集合におけるアンバランスな使用回数の原因となっている. 本研究では,エンハンサー・プロモーター間相互作用予測問題に対する新しい負例生成手法を提案している.最大フロー問題を解くアルゴリズムに還元することにより,与えられた正例集合に対して,各エンハンサーと各プロモーターの正負例集合における使用回数が同程度である負例集合の生成手法を確立し,既存予測手法の予測精度が向上することを確認している(現在論文執筆中). また,申請研究の別の課題であるHi-Cデータから得られるゲノム領域間の近接情報を表すコンタクトマップの解像度を高める機械学習手法の開発にも取り組んだ.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
エンハンサー・プロモーター間相互作用予測モデル学習のための負例集合の新しい生成方法を研究し成果をまとめて投稿したが不採用となったためである.現在,査読結果に基づき内容を改善し,再投稿する予定である. また,Hi-Cデータから得られるゲノム領域間の近接情報を表すコンタクトマップの解像度を高める機械学習手法の開発に関しては,想定外に計算量が必要であることが判明し,新たな手法を考案している段階である.
|
今後の研究の推進方策 |
エンハンサー・プロモーター間相互作用予測モデル学習のための負例集合の新しい生成方法の研究に関しては,論文化を急ぐ. また,次に取り組むべき課題として,ゲノムの3D構造の再構築やゲノムの各領域の特徴付けを実施する予定である.
|