配列の対を生成する統計的言語モデルの開発と配列解析への適用

Research Project

Project/Area Number	15700244
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Bioinformatics/Life informatics
Research Institution	Kyoto University
Principal Investigator	上田展久京都大学, 化学研究所, 助手 (80346048)
Project Period (FY)	2003 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥2,700,000 (Direct Cost: ¥2,700,000) Fiscal Year 2005: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2004: ¥700,000 (Direct Cost: ¥700,000) Fiscal Year 2003: ¥1,200,000 (Direct Cost: ¥1,200,000)
Keywords	統計的言語モデル / 確率文脈自由文法 / EMアルゴリズム / 確率モデル / 周辺化グラフカーネル / 化学構造 / 分類 / ラベルつき順序木 / ラベル付き順序木 / 動的計画法 / 糖鎖
Research Abstract	本研究の対象である,複雑な構造を持つ配列を解析するための統計的言語モデルとして,大域的な依存性を持つ配列(大域依存配列)の対を生成する効率的な言語モデルを開発した. ここでは大域的な依存性として,回文のような任意の距離で離れている文字間の依存性を考えた.このような大域依存配列の対を生成する既存の統計的言語モデルとして,対確率文脈自由文法が知られているが,この文法では,尤度の計算に文長の6乗に比例する時間が計算時間として必要になる.これに対して,開発したモデルでは文長の4乗に比例する時間で尤度の計算時間の上限が抑えられることを示し,開発したモデルにより時間効率が向上できることを明らかにした. このモデルは,大域依存配列を生成する効率的な言語モデルを開発し,対の配列に対する文法に拡張することにより実現された.大域依存配列に対する既存の言語モデルである確率文脈自由文法では,尤度の計算に文長の3乗に比例する時間が必要となる.一方,開発したモデルでは,大域依存配列を表せる表現力を持ちながら,尤度の計算時間は文長の2乗に比例する時間で抑えられることを示し,効率性を向上させた.合わせて,確率パラメータをデータから学習するEMアルゴリズムを導出し,尤度を増加させるパラメータ更新に掛かる時間も文長の2乗に比例する時間で抑えられることを示した.これらの結果をまとめた論文を現在投稿している. また,昨年まで行なった(a)順序付きラベル木に対する確率モデルと(b)確率モデルに基づくグラフ構造の解析方法について,(a)はバイオインフォマティクスの特集号,(b)は化学情報学の論文誌にそれぞれ論文が掲載された.

Report

(3 results)

Research Products

(3 results)

All 2005

All Journal Article (3 results)

[Journal Article] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005
- Author(s)
  N.Ueda, K.F.Aoki-Kinoshita, A.Yamaguchi, T.Akutsu, H.Mamitsuka
- Journal Title
  
  IEEE Transactions on Knowledge and Data Engineering 17(8)
  
  Pages: 1051-1064
- Related Report
  2005 Annual Research Report
[Journal Article] Graph kernels for molecular structure-activity relationship analysis with support vector machines2005
- Author(s)
  P.Mahe, N.Ueda, T.Akutsu, J.-L.Perret, J.-P.Vert
- Journal Title
  
  Journal of Chemical Information and Modeling 45(4)
  
  Pages: 939-951
- Related Report
  2005 Annual Research Report
[Journal Article] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005
- Author(s)
  N.Ueda, K.F.Aoki, A.Yamaguchi, T.Akutsu, H.Mamitsuka
- Journal Title
  
  IEEE Transactions on Knowledge and Data Engineering (印刷中)
- Related Report
  2004 Annual Research Report

配列の対を生成する統計的言語モデルの開発と配列解析への適用

Principal Investigator

上田 展久 京都大学, 化学研究所, 助手 (80346048)

¥2,700,000 (Direct Cost: ¥2,700,000)

Report

Research Products

[Journal Article] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005

Author(s)

Journal Title

Related Report

[Journal Article] Graph kernels for molecular structure-activity relationship analysis with support vector machines2005

Author(s)

Journal Title

Related Report

[Journal Article] A probabilistic model for mining labeled ordered trees : Capturing patterns in carbohydrate sugar chains2005

Author(s)

Journal Title

Related Report

上田展久京都大学, 化学研究所, 助手 (80346048)