研究概要 |
本研究では,データストリームからの知識獲得を目的として,とくにニュース時系列や時事性の強いWebページ情報を対象にして,事象(事件)の検出やトピックの分析・追跡問題に適用してその有用性を解析した.全体を統一的に記述・操作するための流れ・モデル化とその操作系を論じ,いくつかのプロトタイブシステムによって検証した。具体的には,データストリームの特性に関する知識を獲得してこれらが有する全体の流れを分析するため,本研究では次の観点から様々な手法を提案した. (1)データストリームに対する情報検索技術:具体的には,プロジェクション手法を用いた情報検索の効率を解析し,特にランダムプロジェクションが次元縮小およびデータの動的変化に頑丈であることなど,ストリーム処理に極めて適していることを明らかにした.ただ,高性能処理を行うには問題が残るため,頻度分布に基づくプロジェクション(歪みプロジェクション)手法を提案し,実現可能な水準になることを示した. (2)時制に基づく意味まとまりを単位とする情報の抽出あるいは補完:ニュースストリームや時事性の強いWebページ集合を対象として,内容時間の抽出が可能なこと,これによるクラスタリング結果が事象を構成していることを確認した.時間が入手できない場合には,確率的手法を提案し,高精度に決定できることを示した. (3)トピック生成あるいは要約のためのラベル付け:基本的にはテキスト要約技術であり,本研究で提案する範囲.はヒューリスティックなものである.Webページ集合では,(通常の文章の形態とは異なる面が多いが)統計的に共起する語を抽出して,これを数多く含む文章を抽出することでクラスタの表現する主たる主張を表現することができる.Webページ集合に対する適用結果は極めて良好であった。 (4)テーマに対する評価方法の確立とこれに基づいたトピック追跡:基本的には話題検出技術であり,本研究で提案する範囲はヒューリスティックなものである.Webページ集合では,頻出語を事象クラスタ間で追跡することで,事象の追跡が可能なことを論じた. (5)効率よいシステム実現のための多次元データ操作方式の確立:特にニュースストリームが多次元データ構造を必要とすることから,拡張ハッシュに基づいた多次元構造(拡張可能グリッドファイル)を提案し,超高次元データに対する次元縮小技法を適用することで,本研究で想定する数万次元を取り扱えることを示した. 本研究ではさらに,記述論理を用いたUML整合性の検証問題と,コロニーネットワークにおけるトレンド伝播協調モデル構築に対する基礎技術を与えるものであることも示した。
|