本研究プロジェクトでは、まず、私達の以前の研究において文字列の非可換位相半群 A* 上で展開した確率論を拡張し、いくつかの極限定理を証明した。次に、これらの定理を用いて、A* においてマージン最大化原理の下で学習する学習機械の理論を構築し、それを RNA の 2 次構造とタンパク質間相互作用の予測問題に応用して、実際のデータ解析におけるその有用性を示した。更に、A* 上で混合モデルの理論を構築して、文字列データの教師なしクラスタリング方式を導出し、上述の定理を用いて、その最適性を証明した。最後に、A* 上の分布に対して中央及び中心文字列を定義し、それらを効率的に探索するアルゴリズムを構成した。
|