2006 Fiscal Year Annual Research Report
大規模半構造データからの高速知識発見システムの開発
Project/Area Number |
17200011
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
岡本 青史 株式会社富士通研究所, ナレッジ研究センター, 主任研究員 (90399717)
|
Co-Investigator(Kenkyū-buntansha) |
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
篠原 歩 東北大学, 大学院・情報科学研究科, 教授 (00226151)
喜田 拓也 北海道大学, 大学院・情報科学研究科, 助教授 (70343316)
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
平田 耕一 九州工業大学, 情報工学部, 助教授 (20274558)
|
Keywords | 半構造データ / XML / 知識発見 / パターン発見 / パターン照合 / データ圧縮 |
Research Abstract |
【半構造データ処理基盤技術】 パストライを用いた軽量なXMLストリーム処理高速化技法を開発した.XAXENと名づけたこの処理系は数千〜数万のクエリを同時に処理することが可能で,ストリーム処理手法として有名なXMLTK, YFilterと比較して実行速度で約4〜6倍,メモリ使用量で約6倍以上の圧倒的な性能を達成した. また,XQL等の質問言語における経路質問を処理するための基本問題であるグラフ構造上の到達可能性問題に対し,高速で規模耐性の高い索引構造を提案・実装し,その有効性を示した(DEWS2007優秀論文賞受賞). さらに,半構造データにおける自然言語テキストや形態素解析後のテキスト,注釈付きテキスト,構造データ列に対する効率よい索引構造の研究を行い,任意の正整数kに対してk単語接尾辞木を構築する線形時間オンライン構築アルゴリズムを与えると同時に,これまで未解決だったプロパティ付き接尾辞木の線形時間構築問題に対して0(n)時間構築アルゴリズムを与えることでこの問題を肯定的に解決した. 【半構造データからのパターン発見技術】 最適パターン発見問題に対し,新たなパターン族を導入することで効率的なパターン発見アルゴリズムを開発すると同時にWebスパム検出問題への適用研究を行った. また,木構造からのパターン発見問題に対し,出現パターンを学習するためのカーネル関数の設計と実験による解析を行うと同時に,一般的な木構造を学習する困難性が#P-完全であることを示した(2006年度人工知能学会論文賞受賞). さらに,木に埋め込まれたパスの頻度に基づく木の類似性とその計算アルゴリズムの研究を行い,葉が高々2で頂点数がqであるqグラムを共通部分とみなした木の頻度最大化に基づく類似性に着目することで,高速な頻度計算アルゴリズムを開発し,糖鎖データの学習やクラスタリングへの応用によりその有効性を示した.
|
Research Products
(33 results)