研究概要 |
本研究では,World Wide Web(WWW,ウェブ)に代表される膨大な電子情報に内在する知識を発見するための超高速半構造パターン発見技術と,これと組み合わせて知識基盤形成を行うための周辺技術の研究開発を行う.平成17年度は、次の項目に関して研究開発を行った. (1)超高速半構造マイニングエンジンの研究として,分子生物学や時系列解析に広い応用をもつ極大モチーフ発見問題に対して,入力長の多項式遅延時間・多項式領域を達成する効率よい極大モチーフ列挙アルゴリズムMaxMotifを開発し,これにより生物情報学分野における未解決問題を肯定的に解決した.さらにその計算量を理論的に明らかにし,さらに,この枠組みを自明でないグラフの部分族に拡張し,属性木の族に対する多項式遅延多項式極大パターン発見アルゴリズムCLOATTを与えた(ISAAC'05,ILP'05).これにより,半構造データに対する性能保障をもつ高速な極大パターン発見が初めて可能になった(有村・喜田).また,統計的マイニングへの拡張として,開発したMaxMotifアルゴリズムを用いた高速な確率系列プロファイル発見手法を検討した(有村・伊藤).(2)半自動知識連係技術として,ネットワーク上の知識断片の相互連携のための知識獲得機構の検討を行った(Ito, IMKB XBVII).大規模知識基盤形成システムのための高速な知識索引技術として,分担者の湊が開発したZBDD技術に基づくタプル頻度表およびパターン頻度表を開発し(WIRI2006;信学会論文誌D, 53 (2)),圧縮して格納されたデータベース表現から,パターン頻度表として圧縮して表現された頻出パターン集合を直接計算する高速なアルゴリズムZBDD-growthを開発した.(3)知識獲得システムのプロトタイプ構築のために応用事例を調査し,要求要件を洗い出した.さらに,本年度の研究で開発したアルゴリズムを実装し,予備評価実験と理論的解析に基づいて最適化を行い,開発したプログラムの公開を行った(Unot, MaxMotif).知識基盤形成技術について,学術情報獲得や人獣共通感染症領域等の具体的領域に関して検討を行った(伊藤・喜田・有村).さらに,データ収集サーバを導入し,予備実験を行った(湊・伊藤・喜田・有村).
|