2005 Fiscal Year Annual Research Report
大規模半構造データからの高速知識発見システムの開発
Project/Area Number |
17200011
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
岡本 青史 株式会社富士通研究所, ナレッジ研究センター, 主任研究員 (90399717)
|
Co-Investigator(Kenkyū-buntansha) |
有川 節夫 九州大学, 理事・副学長(特任教授) (40037221)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
篠原 歩 東北大学, 大学院・情報科学研究科, 教授 (00226151)
喜田 拓也 北海道大学, 大学院・情報科学研究科, 助教授 (70343316)
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
|
Keywords | 半構造データ / XML / 知識発見 / パターン発見 / パターン照合 / 圧縮 / 平滑化解析 |
Research Abstract |
【知識発見システム基盤】 パスプルーニングによる決定性有限オートマトンの構築手法を提案し、高速かつ省メモリのXQuery処理機構を開発。市販のXML DBMSとの比較実験により、圧倒的な処理性能の優位性を示した。また、高速なXPath処理手法を開発。逆算術符号化にノード間の先祖子孫関係を判定可能な範囲ラベルを導入することで複雑な問合せ処理を可能にし、既存手法と比較して数十から百倍の高速化を達成できることを示した。 【パターン発見】 VLDCパターン族に対する枝刈手法の効果を詳細に調べ、アルファベットサイズの増大に対し実用時間処理が可能であることを示した。また、最適弁別パターン発見問題を一般化し、文字列とそれに関連付けられた数値属性値との対の集合から最適パターンを発見する問題に取り組み、接尾辞木に基づく効率的アルゴリズムの開発に成功。 【パターン照合】 正則生垣と呼ばれるパターン木族に対する効率的な木パターン照合アルゴリズムを開発。また、Arc-annotationと呼ばれる構造が付随したテキストに対する文字列照合問題に取り組み、効率の良いアルゴリズムを開発した。さらに、接尾辞木のオンライン線形時間構築アルゴリズムを示し、10余年もの未解決問題を解決。 BPE圧縮データ上のパターン照合では、正規表現拡張に取り組み、効率的なアルゴリズムを開発。また、データ追加時の文法変更が不要な日本語テキストに対するBPE圧縮を開発した。 【平滑化解析】 平均時と最悪時の振る舞いのギャップを説明する新しい理論的枠組みである平滑化解析を用いて、文字列照合アルゴリズムの計算量解析を行った。テキスト長をn、パターン文字列長をmとすると、その実行時間は最悪時にはO(mn)であるが、ランダム文字列に対する平均時にはO(n)であることに着目し、文字列の摂動モデルを定式化して、実行時間を厳密に解析することに成功。
|
Research Products
(15 results)