2007 Fiscal Year Annual Research Report
個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究
Project/Area Number |
19024002
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 Hokkaido University, 大学院・情報科学研究科, 准教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
原口 誠 北海道大学, 大学院・情報科学研究科, 教授 (40128450)
大久保 好章 北海道大学, 大学院・情報科学研究科, 助教 (40271639)
|
Keywords | 情報検索 / テキストマイニング / クラスタリング / フォーマルコンセプト |
Research Abstract |
本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」と「ピンポイントクラスタリングによるWebサイトの分析」の2つの課題について研究を行った。 コントラストセットマイニングによる個々のサイトの特徴分析の研究として、本年度は、複数ニュースサイトの比較によるニュースサイトの特徴分析の研究を行い、ニュースサイトの比較分析システムを構築した。本システムでは、個々のニュースサイトと他のニュースサイトにおける共起語の相関性の違いに注目することにより、各々のニュースサイトの特徴を現す語を抽出する。また、本システムを利用して、実際に複数のニュースサイトから獲得した新聞記事を使った分析を行い、国ごとに違う興味を表す手がかりとなるキーワードが発見できることを確認した。また、ピンポイントクラスタリングによるWebサイトの分析として、本年度は、対象となる文書、対象(例えば、文書)と、属性(例えば、索引語の存在)の組となる関係から、閉包であるクラスタを発見するフォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
|