個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究
Project/Area Number |
19024002
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 Hokkaido University, 大学院・情報科学研究科, 准教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
原口 誠 北海道大学, 大学院・情報科学研究科, 教授 (40128450)
大久保 好章 北海道大学, 大学院・情報科学研究科, 助教 (40271639)
|
Project Period (FY) |
2007 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥5,600,000 (Direct Cost: ¥5,600,000)
Fiscal Year 2008: ¥2,800,000 (Direct Cost: ¥2,800,000)
Fiscal Year 2007: ¥2,800,000 (Direct Cost: ¥2,800,000)
|
Keywords | 情報検索 / テキストマイニング / クラスタリング / フォーマルコンセプト |
Research Abstract |
本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。 この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」の考え方に基づくシステムを実装し、様々なレベルのユーザ実験を通した評価を行った。簡単にシステムを使用してもらってコメントをもらうというユーザ実験では、半数以上の利用者から、システムが有用であるというコメントをもらえた。一方、レポート作成課題の実施という本システムの利用目的に応じた課題の遂行という実験を行ったところ、異なる国のデータとの比較を行う際には、外国語の新聞を直接の比較対象とする必要性などが指摘された。この指摘を受け、機械翻訳システムと組み合わせることによりシステムを作成した。このシステムでは、ニュースなどの時事的なトピックに対する対訳辞書の不備を補うためのWikipediaを用いた対訳辞書の作成方法などの提案も行った。また、ピンポイントクラスタリングによるWebサイトの分析」の課題については、昨年度から継続して、フォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。
|
Report
(2 results)
Research Products
(13 results)