研究課題
本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」の考え方に基づくシステムを実装し、様々なレベルのユーザ実験を通した評価を行った。簡単にシステムを使用してもらってコメントをもらうというユーザ実験では、半数以上の利用者から、システムが有用であるというコメントをもらえた。一方、レポート作成課題の実施という本システムの利用目的に応じた課題の遂行という実験を行ったところ、異なる国のデータとの比較を行う際には、外国語の新聞を直接の比較対象とする必要性などが指摘された。この指摘を受け、機械翻訳システムと組み合わせることによりシステムを作成した。このシステムでは、ニュースなどの時事的なトピックに対する対訳辞書の不備を補うためのWikipediaを用いた対訳辞書の作成方法などの提案も行った。また、ピンポイントクラスタリングによるWebサイトの分析」の課題については、昨年度から継続して、フォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
すべて 2009 2008
すべて 雑誌論文 (2件) (うち査読あり 1件) 学会発表 (5件)
情報処理学会論文誌 49(8)
ページ: 12-18
InfbrmationRetrieval Technology 4th Asia Infomation Retrieval Symposium, AIRS 2008, Harbin, China, January 15-18, 2008 Revised Selected Papers LNCS4993
ページ: 508-513