研究概要 |
(1) 次世代サーチエンジンの開発 Webの検索結果をカテゴリ表示するための新しいクラスタリング方法が求められている.今年度はクラスタリングの際に,ある分野に対する利用者の専門度に合わせたクラスタラベルとスニペットを作成するために,Webページの特徴語に関する統計量の大きさに注目する方法を提案し,高い評価を受けた(情報処理学会データベースシステム研究会(2008.9),学生奨励賞). (2) XMLフィルタリング・マイニング技術の開発 大規模なXML応用システムのスケーラビリティを検証するためには,そのシステムにふさわしいデータを用いる必要がある.そこで実データを基に,その統計的性質(要素の頻度など)を維持しつつ,任意のサイズのデータを合成する方法を提案した(電子情報通信学会などDEIM 2009 (2009.3)). (3) ブログマイニング技術の開発 ブログ空間を解析すれば,サーチ結果の要約,世論のモニタリング,さらにWeb解析,ビジネスインテリジェンスなどへ応用できる.多視点から重要なトピックの抽出を行うため,品詞の違いに注目しローカルな重み付けを行うクラスタリング手法,ならびに利用者の多様な目的に合わせたサイトの発見と推薦を行うためのブログの分類手法を開発・評価した(DEIM 2009(2009.3)).さらにアンカーテキストを構成する特徴語の重み付けを,その位置に基づいて変化させるモデルを提案した(ECML/PKDD 2008 Workshop (2008.9)など). (4) Web情報抽出と地理的情報システム Wikipediaなどのメディアからある情報(たとえば地理的情報)を抽出し,それと他の情報資源(たとえば衛星画像)を統合すればより有用な発見ができる可能性がある.そこでWikipedia記事から系統的に地理情報の抽出を行う方法を提案し,それを基に記事を可視化する方式を実現するとともに,さらに抽出結果を基に画像情報を検索できる仕組みを提案した(DEIM 2009 (2009.3)).
|