2004 年度実績報告書

配列の対を生成する統計的言語モデルの開発と配列解析への適用

研究課題

研究課題/領域番号	15700244
研究機関	京都大学
研究代表者	上田展久京都大学, 化学研究所, 助手 (80346048)
キーワード	確率モデル / 周辺化グラフカーネル / 化学構造 / 分類 / ラベルつき順序木
研究概要	本研究の対象である,統計的言語モデル(確率モデル)により複雑な構造を持つ配列を解析する方法を開発するために,確率モデルに基づいたグラフ構造を解析する方法について検討した. 近年,グラフ上のランダムウォークモデルから生成されるパスの確率に基づき,2つのグラフの類似度を計算する周辺化グラフカーネル(以下カーネル)が提案され,グラフで表現される化学構造の分類問題に適用された.この類似度による化学構造分類の精度をより向上させるために,次の2つの拡張を行ない,実際の化学構造の分類において既存手法を上回る分類精度が得られた.(1)部分構造を反映する値の各頂点への付与,(2)局所的な構造に対応するパスの類似度からの除去. (1)の拡張は,グラフ構造の分類に有用な情報を含んでいると考えられる部分構造に関する情報がカーネルの類似度に直接考慮されていないことによる.パスの確率から計算される類似度には部分構造の情報は直接含まれていないことから,その類似度に構造的な情報を取り入れるために,各頂点のラベルにMorganインデックスと呼ばれる値をラベルに加えた.周囲の構造が同一である頂点ではこの値が同じになるという特徴を持つため,この値が一致するパスのみを類似度に取り入れることで,部分グラフ構造の情報が類似度に反映される. (2)の拡張は,類似度を計算する際のパスに2つの頂点間を繰り返し往復するグラフの局所的な構造の情報しか含まないものがあるためである.グラフの大域的構造の情報を含まないこのようなパスを,カーネルによる類似度の計算から除去するために,ランダムウォークモデルに2次のマルコフ性を取り入れた. また,昨年行った順序つきラベル木に対する確率モデルの研究成果が,論文誌のバイオインフォマティクス特集号に受理された.

研究成果
(1件)

すべて雑誌論文 (1件)

[雑誌論文] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005
- 著者名/発表者名
  N.Ueda, K.F.Aoki, A.Yamaguchi, T.Akutsu, H.Mamitsuka
- 雑誌名
  
  IEEE Transactions on Knowledge and Data Engineering (印刷中)