配列の対を生成する統計的言語モデルの開発と配列解析への適用

研究課題

研究課題/領域番号	15700244
研究種目	若手研究(B)
配分区分	補助金
研究分野	生体生命情報学
研究機関	京都大学
研究代表者	上田展久京都大学, 化学研究所, 助手 (80346048)
研究期間 (年度)	2003 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	2,700千円 (直接経費: 2,700千円) 2005年度: 800千円 (直接経費: 800千円) 2004年度: 700千円 (直接経費: 700千円) 2003年度: 1,200千円 (直接経費: 1,200千円)
キーワード	統計的言語モデル / 確率文脈自由文法 / EMアルゴリズム / 確率モデル / 周辺化グラフカーネル / 化学構造 / 分類 / ラベルつき順序木 / ラベル付き順序木 / 動的計画法 / 糖鎖
研究概要	本研究の対象である,複雑な構造を持つ配列を解析するための統計的言語モデルとして,大域的な依存性を持つ配列(大域依存配列)の対を生成する効率的な言語モデルを開発した. ここでは大域的な依存性として,回文のような任意の距離で離れている文字間の依存性を考えた.このような大域依存配列の対を生成する既存の統計的言語モデルとして,対確率文脈自由文法が知られているが,この文法では,尤度の計算に文長の6乗に比例する時間が計算時間として必要になる.これに対して,開発したモデルでは文長の4乗に比例する時間で尤度の計算時間の上限が抑えられることを示し,開発したモデルにより時間効率が向上できることを明らかにした. このモデルは,大域依存配列を生成する効率的な言語モデルを開発し,対の配列に対する文法に拡張することにより実現された.大域依存配列に対する既存の言語モデルである確率文脈自由文法では,尤度の計算に文長の3乗に比例する時間が必要となる.一方,開発したモデルでは,大域依存配列を表せる表現力を持ちながら,尤度の計算時間は文長の2乗に比例する時間で抑えられることを示し,効率性を向上させた.合わせて,確率パラメータをデータから学習するEMアルゴリズムを導出し,尤度を増加させるパラメータ更新に掛かる時間も文長の2乗に比例する時間で抑えられることを示した.これらの結果をまとめた論文を現在投稿している. また,昨年まで行なった(a)順序付きラベル木に対する確率モデルと(b)確率モデルに基づくグラフ構造の解析方法について,(a)はバイオインフォマティクスの特集号,(b)は化学情報学の論文誌にそれぞれ論文が掲載された.

報告書

(3件)

研究成果
(3件)

すべて 2005

すべて雑誌論文 (3件)

[雑誌論文] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005
- 著者名/発表者名
  N.Ueda, K.F.Aoki-Kinoshita, A.Yamaguchi, T.Akutsu, H.Mamitsuka
- 雑誌名
  
  IEEE Transactions on Knowledge and Data Engineering 17(8)
  
  ページ: 1051-1064
- 関連する報告書
  2005 実績報告書
[雑誌論文] Graph kernels for molecular structure-activity relationship analysis with support vector machines2005
- 著者名/発表者名
  P.Mahe, N.Ueda, T.Akutsu, J.-L.Perret, J.-P.Vert
- 雑誌名
  
  Journal of Chemical Information and Modeling 45(4)
  
  ページ: 939-951
- 関連する報告書
  2005 実績報告書
[雑誌論文] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005
- 著者名/発表者名
  N.Ueda, K.F.Aoki, A.Yamaguchi, T.Akutsu, H.Mamitsuka
- 雑誌名
  
  IEEE Transactions on Knowledge and Data Engineering (印刷中)
- 関連する報告書
  2004 実績報告書

配列の対を生成する統計的言語モデルの開発と配列解析への適用

研究代表者

上田 展久 京都大学, 化学研究所, 助手 (80346048)

2,700千円 (直接経費: 2,700千円)

報告書

研究成果

[雑誌論文] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Graph kernels for molecular structure-activity relationship analysis with support vector machines2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005

著者名/発表者名

雑誌名

関連する報告書

上田展久京都大学, 化学研究所, 助手 (80346048)