研究概要 |
本研究では,WWW(ウェブ)などの大規模半構造データからの知識基盤形成のための超高速半構造パターン発見技術とその周辺技術の研究開発を行う.本研究では,次の項目に関して研究開発を行った. (1)超高速半構造マイニングエンジンの研究として,変数付き系列モチーフや属性木等の有用かつ自明でない半構造データ族に対して,性能保障をもつ効率よいパターン発見アルゴリズムを開発した.これらの計算量を理論的に明らかにし,さらにこの枠組みを一般化することで,平面幾何グラフ,2次元画像パターン,伸張を許す極大系列パターン,近似アイテム集合等の半構造データ族に対して,効率よい多項式時間遅延・多項式領域アルゴリズムを開発した.統計的マイニングに関して,自然言語処理分野や,人獣共通感染症領域での遺伝子解析応用への応用を行った.(有村,伊藤,喜田). (2)知識基盤形成のための大規模知識索引技術として,ZBDD技術を用いた圧縮知識索引機構と,その上で対称パターンの発見や,飽和集合発見を行う高速アルゴリズムを開発し,様々な効率化技術を開発した(湊,有村). (3)半自動知識連係技術として,ビット並列手法に基づく多次元数値ストリームデータや,例からの学習を用いた情報抽出技術などネットワークからの情報抽出や高速半構造ストリーム処理に基づく効率よい情報収集技術を開発した.(伊藤,喜田,有村). (4)開発した知識発見・知識連携・知識索引技術に関して,これまでのアルゴリズム実装と,評価実験,理論的解析に基づき,知識発見ツールの集合として知識獲得プロトタイプシステムを構築し,適用実験を行った (湊・伊藤・喜田・有村).
|