研究概要 |
本研究では,World Wide Web (WWW,ウェブ)に代表される膨大な電子情報に内在する知識を発見するための超高速半構造パターン発見技術と,これと組み合わせて知識基盤形成を行うための周辺技術の研究開発を行う.平成18年度は,次の項目に関して研究開発を行った. (1)超高速半構造マイニングエンジンの研究として,さまざまな知識発見問題に広い応用をもつ極大モチーフ発見問題に対して,入力長の多項式遅延時間・多項式領域を達成する効率よい極大パターン発見アルゴリズムを開発した.特に,前年度に開発した極大系列モチーフ発見手法MaxMotifの計算量を理論的に明らかにし,学術論文として出版した.さらに,この枠組みを2次元極大パターンや伸張を許す極大系列パターンの族に拡張した.これにより,2次元データや柔軟な系列データなどより広い族の半構造データに対する性能保障をもつ高速な極大パターン発見が可能になった(有村・喜田).また,統計的マイニングヘの拡張として,重み付き極大パターン発見と統計的機械学習を用いた高速な確率的な知識発見手法を検討した(有村・伊藤・喜田). (2)半自動知識連係技術として,ネットワーク上の知識断片の巡回用いた情報収集機構の検討を行った(Tsutsui, Ito, Arimura, DEWS2007).大規模知識基盤形成システムのための高速な知識索引技術として,前年度に開発したZBDD技術を用いた知識索引機構上で,圧縮して格納されたデータベース表現から,パターンの単純分解構造や,在的な対称パターンの発見,系列パターン発見を行う高速アルゴリズムや,パターン頻度表として圧縮して表現された閉パターン集合を直接計算するアルゴリズムを開発した(湊,喜田,有村).また,半構造ストリーム処理の研究を行った(有村・喜田). (3)知識獲得システムのプロトタイプ構築のために応用事例を調査し,要求要件を洗い出した.査前年度に引き続いて開発したアルゴリズムを実装し,評価実験と理論的解析に基づき最適化を行い,公開した.知識基盤形成技術について,学術情報獲得や人獣共通感染症領域等の具体的領域に関して検討を行った.さらに,データ収集サーバを導入し,予備実験を行った(湊・伊藤・喜田・有村).
|