研究課題
本研究の目的は,次世代シーケンサーを活用して得られるクロマチンのコンタクト情報を有効活用する情報科学的手法の研究である.近年Hi-C法の実験により,ゲノムの二つの領域の接触頻度情報が得られるようになり,このデータを組み込んだ数理モデルの構築と有効活用方法の開発が急務の課題となっている.そのような中,本年度の研究費で,初年度から継続的に実施している「エンハンサー・プロモーター間相互作用予測のための質の高い負例データ集合の作成方法の研究」を展開した.この問題の正例であるエンハンサー・プロモーター間相互作用は,Hi-Cデータの解析により決まるものである.一方,負例は人工的であり,学習モデルがうまく最適化されるように設計する必要がある.このような中,負例集合が満たすべき新たな条件として,各エンハンサーとプロモーターの出現回数が正例集合と負例集合において均衡しなければならないとう条件を提案した.しかし,ながらこのような条件を満たす負例集合を同定することは自明でないため,出来るだけこの条件に近い解である負例集合を同定する手法を開発した.一つは最大フロー問題に還元する形で問題を解く手法であり,もう一つは,提案した条件の充足度を評価する評価関数を用いて設計した確率分布に対するギブス・サンプリング・アルゴリズムである.これらにより生成された負例集合に対して,2種類の既存の予測手法をテストしたところ,双方において予測精度の改善が示された.
2: おおむね順調に進展している
予定した個別課題を一つ解決することが出来た.
最終年度のため,未発表の研究を成果として形にする.とくに,Hi-Cコンタクト行列の再構成の課題を解決する.
すべて 2023
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (1件)
Proc. of 14th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics
巻: - ページ: 1-6
10.1145/3584371.3612997