2010 Fiscal Year Annual Research Report
情報爆発時代におけるサイバー空間情報定量評価基盤の構築
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
18049013
|
Research Institution | The University of Tokyo |
Principal Investigator |
喜連川 優 東京大学, 生産技術研究所, 教授 (40161509)
|
Co-Investigator(Kenkyū-buntansha) |
小口 正人 お茶の水女子大学, 理学部, 教授 (60328036)
|
Keywords | サイバー空間 / コンテンツ・アーカイブ / 計算機システム / データストレージ / 情報工学 |
Research Abstract |
近年人類の創生する情報は爆発的に増加しており、本研究では、膨大な情報源から真に必要とする情報を如何に抽出するかという課題に挑戦しようとするものである。情報源の中でも最も増加率の高いウェブ情報源に対して、検索手法等各種手法の有効性を定量的かつ再現性を持たせた形で評価する定量的評価基盤を構築することを目的とする。 今年度は昨年度の成果を基に、サイバー空間情報定量評価基盤の構築を進め、定量評価基盤の基本アーキテクチャの部分評価を試みると同時に、再現性のある定量的評価手法を実現するために、現在のサイバー区間の解析を行い、定量評価基盤への組込み手法について検討を行った。 1)定量評価基盤システムは年々増加する情報の蓄積に巨大なストレージの運用が必要となる。最終年度にあたり、ストレージ仮想化手法を用いた拡張容易なシステムアーキテクチャ並びに格納構造の検証を行うとともに、インターネット上に分散された情報処理として、IP-SAN等のストレージ高速通信機構の評価実験を行った。さらに、従来から蓄積しているサイバー空間情報を定量評価基盤として利用可能であるか限定公開の実験を行うため、新たにクラスタシステムを導入し、昨年度から移行中のデータ蓄積にくわえ、解析処理能力を強化した。この成果として、ストレージ仮想化手法を用いた拡張可能なシステム並びに格納構造の定量評価基盤としての実装評価に加え,定量評価基盤運用時の省電力化を目指し、大規模ストレージにおける省電力手法の開発を行った。 2)定量評価結果の解釈支援を目的としたサイバー空間構造解析を進める上で、とりわけリンク情報を用いた情報獲得手法では検索結果を解釈することが極めて困難である。定量評価基盤上にサイバーコミュニティ抽出,スパム解析,バーティカル検索のためのエンティティ抽出をはじめとするサイバー空間構造解析のためのツール群を構築した.定量評価基盤構築の問題である検索エンジンスパムに関し,全ウェブ空間におけるスパム分布を基にスパムと非スパムの境界を抽出する手法を開発した.また、スパム境界には,期限切れサイトをスパマーが購入して利用するなど,ここから新たに出現するスパムを多く発見されている.本年度はその知見をもとに、スパムとなるページの検出手法を開発した。また、昨年度に引き続き、超高速ウェブクローラを改良し,各種テキストインデックス,特徴的グラフ様態に着目した種々のリンクインデクス,並びに各種ユーティリティを実装した高度プラットフォームを構築し、テキスト解析によるブログの評価情報抽出、話題のクラスタリング、タグ情報を利用したウェブ上の画像情報のクラスタリングなどを試みた。
|