配列の対を生成する統計的言語モデルの開発と配列解析への適用
Project/Area Number |
15700244
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Bioinformatics/Life informatics
|
Research Institution | Kyoto University |
Principal Investigator |
上田 展久 京都大学, 化学研究所, 助手 (80346048)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥2,700,000 (Direct Cost: ¥2,700,000)
Fiscal Year 2005: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2004: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2003: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 統計的言語モデル / 確率文脈自由文法 / EMアルゴリズム / 確率モデル / 周辺化グラフカーネル / 化学構造 / 分類 / ラベルつき順序木 / ラベル付き順序木 / 動的計画法 / 糖鎖 |
Research Abstract |
本研究の対象である,複雑な構造を持つ配列を解析するための統計的言語モデルとして,大域的な依存性を持つ配列(大域依存配列)の対を生成する効率的な言語モデルを開発した. ここでは大域的な依存性として,回文のような任意の距離で離れている文字間の依存性を考えた.このような大域依存配列の対を生成する既存の統計的言語モデルとして,対確率文脈自由文法が知られているが,この文法では,尤度の計算に文長の6乗に比例する時間が計算時間として必要になる.これに対して,開発したモデルでは文長の4乗に比例する時間で尤度の計算時間の上限が抑えられることを示し,開発したモデルにより時間効率が向上できることを明らかにした. このモデルは,大域依存配列を生成する効率的な言語モデルを開発し,対の配列に対する文法に拡張することにより実現された.大域依存配列に対する既存の言語モデルである確率文脈自由文法では,尤度の計算に文長の3乗に比例する時間が必要となる.一方,開発したモデルでは,大域依存配列を表せる表現力を持ちながら,尤度の計算時間は文長の2乗に比例する時間で抑えられることを示し,効率性を向上させた.合わせて,確率パラメータをデータから学習するEMアルゴリズムを導出し,尤度を増加させるパラメータ更新に掛かる時間も文長の2乗に比例する時間で抑えられることを示した.これらの結果をまとめた論文を現在投稿している. また,昨年まで行なった(a)順序付きラベル木に対する確率モデルと(b)確率モデルに基づくグラフ構造の解析方法について,(a)はバイオインフォマティクスの特集号,(b)は化学情報学の論文誌にそれぞれ論文が掲載された.
|
Report
(3 results)
Research Products
(3 results)