研究概要 |
ここ数年,Webなどの大量の電子化テキストに現れる意見情報を抽出し,集約や可視化を行うことで,世論調査や評判分析といった応用を実現する研究が進んでいる.一方,意見情報の特徴はさまざまであり,文書ジャンル(例:新聞,ブログ,雑誌等)やドメイン(政治,映画,商品,恋愛相談等)に応じて,出現する意見情報の傾向は異なる. われわれは,これらの意見情報の特徴の違いを整理するために,国立国語研究所の作成する現代日本語書き言葉均衡コーパス(BCCWJ)などに含まれる多様な文書ジャンルを対象として大規模な分析を進め,傾向の違いを整理し,情報アクセスに着目した応用を進める上で,必要となる意見情報を明らかにする.今年度は,新聞記事(780記事),Yahoo!知恵袋(267記事),ブログ(80記事),書籍(10記事)を対象として意見情報を付与したコーパスを作成した.本稿ではそれらを比較して分析した結果を報告した. まず,意見情報として,国際評価会NTCIRのタスクやアプレイザル理論を参照しつつ,1.意見性,2.極性,3.意見保有者,4.意見対象,5.態度評価14タイプ,6.形勢・やり取り9タイプ,7.推測・発話行為8タイプ,8.体験情報,9.レジスターを定義し,6名の判定者を雇用し,上記のコーパスに付与した.詳細なアノテーションマニュアルとオンラインアノテーションツールを作成し,判定者間の付与一致率(κ係数)を計算したところ,ほぼすべての属性について0.4以上,半数以上について0.6以上の一致率を達成した. さらに,文書ジャンル間及び,文書ジャンル内のドメイン(話題領域)ごとに意見情報を比較し,態度評価が主にドメインに依存し,形勢・やり取りが文書ジャンルに依存することを確認した.また,意見対象を拡張固有表現で分類し,態度評価との組合せを抽出することで,ドメインごとに有用な情報を抽出できることを確認した.
|