2005 Fiscal Year Annual Research Report
Webを対象とした意見情報のマイニングに関する研究
Project/Area Number |
17680011
|
Research Institution | National Institute of Informatics |
Principal Investigator |
江口 浩二 国立情報学研究所, 人間・社会情報研究系, 助手 (50321576)
|
Keywords | 意見検索 / レビュー検索 / 確率的言語モデル / 適合モデル / 語の依存関係 / 複合語 |
Research Abstract |
とくに検索タスクに焦点を当て、意見や評判が記述されたレビュー情報を検索するためのモデルと、語の依存関係に着目したクエリ構成手法について検討した。これらは本研究課題において基本的な技法を提供し、次年度以降の計画に不可欠なものである。以下にそれぞれの概要を示す。 第一に、確率的言語モデリングによるレビュー情報検索モデルの検討を行った。特定の製品や作品、概念やイベントに関するレビューや意見の情報を的確に検出し検索可能にするため、文を単位とするレビュー情報の確率的生成モデルを構築した。提案手法は、検索の結果得られた文単位の情報を用いてトピックに関する適合モデルと意見に関する適合モデルを構築し、これらを組み合わせることで特定のトピック(製品・作品名、概念、イベント)に関するレビューや意見を的確に検索することを可能にする。意見情報のアノテーションが付与された文書データを用いて実験を行い、提案モデルの有効性を確認した。 第二に、語と語の依存関係を考慮した確率的言語モデリングに基づくWeb情報検索手法の検討を行った。クエリを構成する個々の複合語や連語における構成語間のより緊密な依存関係、並びに、単語や複合語・連語間のより緩やかな依存関係に着目したクエリ構成手法を開発した。それに加えて、検索の結果得られた文書群から構築した適合モデルによるクエリ拡張手法を組み合わせることの効果を検討した。報告者が過去に共同構築を主導したJPドメインのWeb文書からなるテストコレクションを利用して、このたびの研究目的に適したテストベット環境を構築し、これを用いて語の依存関係のモデル並びに適合モデルとの組合せについて有効性を確認した。さらに、評価型プロジェクト「NTCIR WEBタスク」に参加し、これによっても提案手法の有効性を検証した。
|