Research Abstract |
インターネット上に存在するテキスト情報の量が急速に増加するとともに,我々は検索エンジンの結果から望む情報を見つけるのがますます大変になってきている.このため,検索結果を効果的に再構成する研究が活発になっている.これまで進められてきた大部分の研究は,トピックに従って検索結果をクラスタリングするものである. しかし,最近注目に値する動向の1つとして,増加するインターネット上の情報の中で,ユーザが直接作成したコンテンツの占める割合が急増しているということがある.これらには,特定製品や映画などに対する主観的な評価,または政策に対する賛否の情報が含まれている.このようなコンテンツは,ユーザのブログに掲示されたり,掲示板での活発な議論や,オンラインショッピングモールなどでの使用者評価コメントなどとして現われたりする.したがって,トピックによる検索結果の再構成技術とは別に,ユーザの観点による検索結果の再構成,すなわちユーザの主観的な見解を認識し,肯定/否定の観点によってクラスタリングする技術の開発が必要とされている. 本研究では,検索結果から主観的な見解を記述した文章を抽出する方法を提案する.これは大きく,主観/客観分類器を構築する既存の方法を改善することで,初期主観/客観分類器を構築することと,初期主観/客観分類器を特定の領域に適合させるため,教師なし学習を用いることに分けられる. 初期主観/客観分類器の構築は,既存の単語に基づく分類器に単語の稀少さの概念をを追加,拡張することで,既存の方法を改善する方法を用いた.単語の稀少さは,文書集合内で極めて限定的に出現する語彙集合を表現する概念であり,人間が主観的な文章を記述する時は,稀少な単語を好むという観察から考案されたものである.このようにして構築された主観/客観分類器は,既存の分類器よりも性能が良いが,まだ性能は十分でない.本研究では,その理由が主観/客観分類に使われる語彙が実際にはトピックによって非常に変化するからであることを示す.この観察に基づき,本研究では初期分類器を,トピックに依存した文書集合を使って,トピックごとに適応化した主観/客観分類器を生成する手法を提案する. 本研究の検証のため,現在公開されている主観/客観分類評価コレクションであるMPQA2.0を用いて実験を行なった.実験により,単語の稀少さの概念が,単語に基づく分類器の性能を向上することを確認した.また,特定トピックに適応した主観/客観分類器が,トピックに適応させない分類器に比べ性能が良いことを確認した.
|