研究概要 |
近年人類の創生する情報は爆発的に増加しており、本研究では、膨大な情報源から真に必要とする情報を如何に抽出するかという課題に挑戦しようとするものである。情報源の中でも最も増加率の高いウェブ情報源に対して、検索手法等各種手法の有効性を定量的かつ再現性を持たせた形で評価する定量的評価基盤を構築することを目的とする。 今年度は昨年度の成果を基に、サイバー空間情報定量評価基盤の構築を進め、定量評価基盤の基本アーキテクチャの部分評価を試みると同時に、再現性のある定量的評価手法を実現するために、現在のサイバー区間の解析を行い、定量評価基盤への組込み手法について検討を行った。 1)定量評価基盤システムは年々増加する情報の蓄積に巨大なストレージの運用が必要となる。昨年度に引き続き、最新のストレージ仮想化手法を用いた拡張容易なシステムアーキテクチャ並びに格納構造の設計を行うと共に、インターネット上に分散された情報処理として、IP-SAN等のストレージ高速通信機構について実験環境を強化すると共に、評価実験を行った。さらに、従来から蓄積しているサイバー空間情報を定量評価基盤として利用可能であるか限定公開の実験を行うため、新たにクラスタシステムを導入し、昨年度から移行中のデータ蓄積にくわえ、解析処理能力を強化した。このために、最新のストレージ仮想化手法を用いた拡張可能なシステムアーキテクチャ並びに格納構造の実装を進めると同時に,仮想マシンラスタにおける負荷マイグレーションと実クラウドへの適用の検討を行った. 2)定量評価結果の解釈支援を目的としたサイバー空間構造解析を進める上で、とりわけリンク情報を用いた情報獲得手法では検索結果を解釈することが極めて困難である。定量評価基盤上にサイバーコミュニティ抽出,スパム解析,バーティカル検索のためのエンティティ抽出をはじめとするサイバー空間構造解析のためのツール群を構築するべく研究開発を進めている.近年顕著な現象となっている検索エンジンスパムが定量評価に際して問題となっており,本年度は,全ウェブ空間におけるスパム分布を基にスパムと非スパムの境界を抽出する手法を大幅に改善することに成功した.スパム境界には,ブログや掲示板サイト,期限切れサイトをスパマーが購入したものなどが多く見られ,ここから新たに出現するスパムを多く発見することができる.また、効率の良いウェブ解析においては、定期的に収集した複数面の大規模ウェブスナップショットとその時系列差分が必要となる.昨年度に引き続き、従来から、開発してきた超高速ウェブクローラを改良し,各種テキストインデックス,特徴的グラフ様態に着目した種々のリンクインデクス,並びに各種ユーティリティを実装した高度プラットフォームを構築を開始し、テキスト解析によるブログの評価情報抽出、話題のクラスタリング、タグ情報を利用したウェブ上の画像情報のランキングなどを試みた。
|