研究概要 |
本研究では,アプレイザル理論に基づく英語の辞書から,日本語のアプレイザル辞書を構築し,日英の意見抽出における効果について検証を行った。アプレイザル理論に基づく辞書は,言語学の詳細な分析に基づいて構成されるため,語彙項目のカバー率は限定されたものになる。本研究では,WordNet,JWordNetに基づき同義語を展開することで辞書のカバー率を向上させると同時に,SentiWordNetのスコアに基づきフィルタリングを行うことで,辞書の精度を向上させることを試みた。NTCIR-8多言語意見分析タスクのテストコレクションを用いた実験から,この辞書は意見分析を行う上で,高い再現率を実現できる十分なカバレッジを得ていることを確認した。また,人手で判定をやり直し,辞書の精度の向上を試みた。 また,NTCIR-8の多言語意見分析タスクでは,日本語,英語,中国語を対象とした意見分析のための評価タスクを新たに開催した。過去2回の開催では,システムの評価の正解として使う判定者間の意見の判定一致率が低いという課題があった。今回の開催では,言語間のデータフォーマットの統一をアノテーションツール,評価ツールを用いることで達成し,日本語,英語,中国語(簡体字・繁体字)の4言語で共通のXMLフォーマットによる意見分析コーパスを作成し,言語横断意見検索タスクの実現を容易にした。結果として,過去2回の開催よりも,(特に)英語,中国語の判定者間の一致率(κ係数)が向上した。 さらに,Yahoo!ブログを対象として,意見情報と意見対象タイプを付与したアノテーションについて分析を行った結果,頻出する態度評価と意見対象タイプの組み合わせについて,コンピュータ,エンターテイメント,政治などドメインに特徴的な意見を把握することができることを確認した。また,国会の本会議において,国会の本会議においては,"抽象概念","行為概念","製品名"などが,意見の対象とされていることを確認した。
|