2008 Fiscal Year Annual Research Report
Project/Area Number |
08J03143
|
Research Institution | Kyushu University |
Principal Investigator |
成澤 和志 Kyushu University, システム情報科学研究院, 特別研究員(DC2)
|
Keywords | 異質性発見 / 大規模データ / 計算量 / 文字列カーネル / VLDCパターン / 二部部分列 / コンパクト有向無閉路グラフ |
Research Abstract |
テキストデータには数多くの規則が内包されており,この規則に反する異質性は重要な意味を持つ.本研究では,情報量が少ない単語単位や固定長文字列単位ではなく,情報量が多い部分文字列を効率的に処理することで,テキストに内在する規則と異質性を検出し,新たな特質を発見する技術の開発を目的とする.本年度は,以下の3点に関して研究を実施した.(1)テキストデータを部分文字列単位だけではなく,非常に表現力の高いVLDCパターンによる解析,評価を行い,異質性検出技術において有効になると考えられる文字列カーネルを開発した。長さnの文字列のVLDCパターンはn^<2n>個存在する.そこで,本研究では効率的なデータ構造を開発し,2つの文字列に対して共通のVLDCパターンのみを計算することでO(n^3)〜O(n^5)の計算量でカーネルを計算するアルゴリズムを開発した.VLDCパターンは表現力の高さと引き換えに計算量が大きいため依然として大規模データへの適用は難しい.そこで,(2)VLDCパターンの部分クラスである二部部分列パターンによる解析,評価を行い,さらに二部部分列パターンを用いた文字列カーネルを開発した.二部部分列のような固定長文字列には通常rational kemelと呼ばれるクラスを利用することで設計が容易であるがアルファベットサイズに依存したり,計算領域を多く必要とするという問題点がある.そこで,本研究では動的計画法を用いることによりアルファベットサイズに依存することなくO(n^2)の計算量で二部部分列カーネルを計算するアルゴリズムを開発した。これにより,表現力を極端に下げることなく,計算量を落とすことに成功した.また,(3)大規模な文字列データを効率よく扱う上で重要であるコンパクト有向無閉路文字列グラフをアルファベットサイズに依存することなく線形時間で高速に構築するアルゴリズムの開発を行った.
|
Research Products
(1 results)