研究概要 |
本研究の対象である,複雑な構造を持つ配列を解析するための統計的言語モデル(確率モデル)を考えるために,複雑な構造を持つデータに対する確率モデルを提案し,そのモデルの学習アルゴリズムを開発した. その複雑な構造を持つデータとして,本研究ではラベルつき順序木を対象とした.このデータを対象としたのは,ラベルつき順序木の構造を持つ具体的なデータとして,XMLデータ,糖鎖データなどがあることによる.特に,糖鎖は細胞の分化や増殖などの過程で重要な機能を果たすことが知られており,糖鎖データに対する確率モデルの開発は生命情報学の観点から重要な課題と位置づけることが出来る. このような背景から,馬見塚拓氏,青木聖子氏とともに,ラベルつき順序木を解析するための確率モデルを提案した.既存のモデルでは木に含まれる頂点の親子間の依存関係のみを考慮しているのに対し,提案したモデルでは子供(兄弟)の間の依存関係も表現できるよう拡張した.この子供(兄弟)間の依存関係は,子供に順序のあるデータを対象としていることによる.さらに,データから確率パラメータを効率的に学習するアルゴリズムを開発した.提案した確率モデルが隠れ変数を含むマルコフモデルであることから,学習アルゴリズムの導出はEMアルゴリズムと動的計画法に基づいて行なった.この学習アルゴリズムにより,データの特徴を客観的に捉えた確率パラメータを,提案した確率モデルに与えることが可能になった.さらに,提案した確率モデルを用いて,実際の糖鎖とランダムに作成した糖鎖を高い精度で分類できることを実験により確認した.
|