2016 年度研究成果報告書

文字列解析のための統計理論とその計算生化学への応用

研究課題

研究課題/領域番号	26610037
研究種目	挑戦的萌芽研究
配分区分	基金
研究分野	数学基礎・応用数学
研究機関	国立研究開発法人理化学研究所 (2016) 京都大学 (2014-2015)
研究代表者	小谷野仁国立研究開発法人理化学研究所, 生命システム研究センター, 研究員 (10570989)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	文字列 / 確率論 / 統計学 / 機械学習 / 生物配列 / バイオインフォマティクス
研究成果の概要	本研究プロジェクトでは、まず、私達の以前の研究において文字列の非可換位相半群 A* 上で展開した確率論を拡張し、いくつかの極限定理を証明した。次に、これらの定理を用いて、A* においてマージン最大化原理の下で学習する学習機械の理論を構築し、それを RNA　の 2 次構造とタンパク質間相互作用の予測問題に応用して、実際のデータ解析におけるその有用性を示した。更に、A* 上で混合モデルの理論を構築して、文字列データの教師なしクラスタリング方式を導出し、上述の定理を用いて、その最適性を証明した。最後に、A* 上の分布に対して中央及び中心文字列を定義し、それらを効率的に探索するアルゴリズムを構成した。
自由記述の分野	応用数学、数理統計学、バイオインフォマティクス