研究課題/領域番号 |
26610037
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
数学基礎・応用数学
|
研究機関 | 国立研究開発法人理化学研究所 (2016) 京都大学 (2014-2015) |
研究代表者 |
小谷野 仁 国立研究開発法人理化学研究所, 生命システム研究センター, 研究員 (10570989)
|
研究分担者 |
林田 守広 京都大学, 化学研究所, 助教 (40402929)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
研究課題ステータス |
完了 (2016年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2016年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2015年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2014年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 文字列 / 確率論 / 統計学 / 機械学習 / 生物配列 / バイオインフォマティクス / 計算生物学 |
研究成果の概要 |
本研究プロジェクトでは、まず、私達の以前の研究において文字列の非可換位相半群 A* 上で展開した確率論を拡張し、いくつかの極限定理を証明した。次に、これらの定理を用いて、A* においてマージン最大化原理の下で学習する学習機械の理論を構築し、それを RNA の 2 次構造とタンパク質間相互作用の予測問題に応用して、実際のデータ解析におけるその有用性を示した。更に、A* 上で混合モデルの理論を構築して、文字列データの教師なしクラスタリング方式を導出し、上述の定理を用いて、その最適性を証明した。最後に、A* 上の分布に対して中央及び中心文字列を定義し、それらを効率的に探索するアルゴリズムを構成した。
|