2008 Fiscal Year Annual Research Report
情報爆発時代におけるサイバー空間情報定量評価基盤の構築
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
18049013
|
Research Institution | The University of Tokyo |
Principal Investigator |
喜連川 優 The University of Tokyo, 生産技術研究所, 教授 (40161509)
|
Co-Investigator(Kenkyū-buntansha) |
小口 正人 お茶の水女子大学, 理学部, 教授 (60328036)
|
Keywords | 情報システム / コンテンツ・アーカイブ / 計算機システム / データストレージ / 情報工学 / ウェブ情報 / リンク解析 / 性能評価 |
Research Abstract |
近年人類の創生する情報は爆発的に増加しており、本研究では、膨大な情報源から真に必要とする情報を如何に抽出するかという課題に挑戦しようとするものである。情報源の中でも最も増加率の高いウェブ情報源に対して、検索手法等各種手法の有効性を定量的かつ再現性を持たせた形で評価する定量的評価基盤を構築することを目的とする。 今年度は昨年度の成果を基に、サイバー空間情報定量評価基盤の構築を進め、定量評価基盤の基本アーキテクチャの部分評価を試みると同時に、再現性のある定量的評価手法を実現するために、現在のサイバー区間の解析を行い、定量評価基盤への組込み手法について検討を行った。 1) 定量評価基盤システムは年々増加する情報の蓄積に巨大なストレージの運用が必要となる。最新のストレージ仮想化手法を用いた拡張容易なシステムアーキテクチャ並びに格納構造の設計を行うと共に、インターネット上に分散された情報処理として、IP-SAN等のストレージ高速通信機構について小規模実験環境を構築し、評価実験を行った。さらに、従来から蓄積しているサイバー空間情報を定量評価基盤として利用可能であるか限定公開の実験を行うため、新たにNASシステムを導入し、データなどの移動を開始した。 2) 定量評価結果の解釈支援を目的としたサイバー空間構造解析を進める上で、とりわけリンク情報を用いた情報獲得手法では検索結果を解釈することが極めて困難である。定量評価基盤上にサイバーコミュニティ抽出, スパム解析, バーティカル検索のためのエンティティ抽出をはじめとするサイバー空間構造解析のためのツール群を構築するべく研究開発を進めている.本年度はスパム構造を分析する新たな構造解析手法の開発を行い, 全ウェブ空間におけるスパム分布の概要を明らかにするとともに、スパムとみなされる部分グラフの生成過程について追跡を行った。また、効率の良いウェブ解析においては、定期的に収集した複数面の大規模ウェブスナップショットとその時系列差分が必要となる.従来から、開発してきた超高速ウェブクローラを改良し, 各種テキストインデックス, 特徴的グラフ様態に着目した種々のリンクインデクス, 並びに各種ユーティリティを実装した高度プラットフォームを構築を開始し、テキスト解析によるプログの評価情報抽出などを試みた。
|
Research Products
(26 results)