研究課題
本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」と「ピンポイントクラスタリングによるWebサイトの分析」の2つの課題について研究を行った。コントラストセットマイニングによる個々のサイトの特徴分析の研究として、本年度は、複数ニュースサイトの比較によるニュースサイトの特徴分析の研究を行い、ニュースサイトの比較分析システムを構築した。本システムでは、個々のニュースサイトと他のニュースサイトにおける共起語の相関性の違いに注目することにより、各々のニュースサイトの特徴を現す語を抽出する。また、本システムを利用して、実際に複数のニュースサイトから獲得した新聞記事を使った分析を行い、国ごとに違う興味を表す手がかりとなるキーワードが発見できることを確認した。また、ピンポイントクラスタリングによるWebサイトの分析として、本年度は、対象となる文書、対象(例えば、文書)と、属性(例えば、索引語の存在)の組となる関係から、閉包であるクラスタを発見するフォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
すべて 2008 2007
すべて 雑誌論文 (3件) (うち査読あり 2件) 学会発表 (3件)
Knowledge Media Science. Preparing the Ground: International Workshop, Landsberg Castle, Meiningen Germany, Revised Selected Papers (In press)
An Extended Branch-and-Bound Search Algorithm for Finding Top-N Formal Concepts of Documents (In press)
ヒューマンインターフェース学会誌 9(4)
ページ: 269-274