2016 Fiscal Year Annual Research Report
Statistical theory for string data analysis and its application to computational biochemistry
Project/Area Number |
26610037
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
小谷野 仁 国立研究開発法人理化学研究所, 生命システム研究センター, 研究員 (10570989)
|
Co-Investigator(Kenkyū-buntansha) |
林田 守広 京都大学, 化学研究所, 助教 (40402929)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 文字列 / 確率論 / 統計学 / 機械学習 / 生物配列 / バイオインフォマティクス |
Outline of Annual Research Achievements |
本研究プロジェクトでは、まず、私達の以前の研究 Koyano and Kishino, Physical Review E, 2010 において、生物配列の統計的な解析方法の開発のために構築した、アルファベット A 上の文字列の全体が作る非可換位相半群 A* 上の確率論を拡張し、後で必要となる極限定理を揃えた。 次に、これらの結果を応用して、A* においてマージン最大化原理の下で学習する機械学習の理論を構築した。ハードマージンとソフトマージンの場合の学習アルゴリズムを定式化し、それらの計算量を評価した上で、上述の極限定理を用いて、ある正則条件の下でその学習機械が漸近的に最適な仕方で文字列データを識別することを証明した。また、構築した学習機械を、塩基配列を用いた RNA の 2 次構造の予測問題とアミノ酸配列を用いたタンパク質間相互作用の予測問題に応用して、実際のデータ解析におけるその有用性を示した。 次に、A* 上にパラメトリックな分布を導入し、その基本的な性質を調べることから始めて、その混合モデルに対する EM アルゴリズムの理論を構築し、上述の極限定理を応用することにより、その混合モデルに基づいて、正しい分類を行う事後確率が最大化されるという意味で漸近的に最適な、文字列データの教師なしクラスタリング方式を構成した。 現在、この方法を用いて相同遺伝子の集団の gamma 多様性の解析を行っている。 更に、A* 上に分布に対して中央文字列と中心文字列を導入し、A* が Levenshtein 距離によって距離空間をなしている場合にその探索問題を考察し、効率的にそれらを見つけるアルゴリズムを構成した。
|