研究概要 |
近年人類の創生する情報は爆発的に増加しており、本研究では、膨大な情報源から真に必要とする情報を如何に抽出するかという課題に挑戦しようとするものである。情報源の中でも最も増加率の高いウェブ情報源に対して、検索手法等各種手法の有効性を定量的かつ再現性を持たせた形で評価する定量的評価基盤を構築することを目的とする。 今年度は昨年度の成果を基に、サイバー空間情報定量評価基盤の構築を進め、定量評価基盤の基本アーキテクチャの部分評価を試みると同時に、再現性のある定量的評価手法を実現するために、現在のサイバー区間の解析を行い、定量評価基盤への組込み手法について検討を行った。 1)定量評価基盤システムは年々増加する情報の蓄積に巨大なストレージの運用が必要となる。最新のストレージ仮想化手法を用いた拡張容易なシステムアーキテクチャ並びに格納構造の設計を行うと共に、インターネット上に分散された情報処理として、IP-SAN等のストレージ高速通信機構について検討、実験を行った。 2)定量評価結果の解釈支援を目的としたサイバー空間構造解析を進める上で、とりわけリンク情報を用いた情報獲得手法では検索結果を解釈することが極めて困難である。定量評価基盤上にサイバーコミュニティ抽出,スパム解析,バーティカル検索のためのエンティティ抽出をはじめとするサイバー空間構造解析のためのツール群を構築するべく研究開発を進めている.本年度はスパム構造を分析する新たな構造解析手法の開発を行い,全ウェブ空間におけるスパム分布の概要を明らかにした。また、効率の良いウェブ解析においては、定期的に収集した複数面の大規模ウェブスナップショットとその時系列差分が必要となる.従来から、開発してきた超高速ウェブクローラを改良し,各種テキストインデックス,特徴的グラフ様態に着目した種々のリンクインデクス,並びに各種ユーティリティを実装した高度プラットフォームを構築を開始した。
|