研究概要 |
文書ジャンル(例:新聞,ブログ,雑誌等)やドメイン(政治,映画,商品,恋愛相談等)に応じて,出現する傾向の異なる意見情報の特徴の違いを整理するために,昨年度に引き続き,国立国語研究所の作成する現代日本語書き言葉均衡コーパス(BCCWJ)などに含まれる多様な文書ジャンルのうち,口語表現を含む文書ジャンルとして,Yahoo!ブログ(471記事,6,944文)と国会会議録(14記事,5,812文)のデータを対象として,意見・体験情報の付与を行った。 アノテータは,昨年度のYahoo!知恵袋,新聞記事,書籍,ブログなどを対象としてアノテーションを行った作業者を対象とし,昨年度の作業で作成したアノテーションマニュアルを活用しながら,数名の新規メンバーを加えることで,コストの低減と作業の拡張性について検証した。 作業内容としては,昨年度定義した意見情報として,1.意見性,2.極性,3.意見保有者,4.意見対象,5.態度評価14タイプ,6.形勢・やり取り9タイプ,7.推測・発話行為8タイプ,8.体験情報(体験性,体験主,体験タイプ,意見誘発性)に加えて,拡張固有表現の定義に基づく9.意見対象タイプを定義し,また,文書ジャンル特有の属性として,カテゴリ適合性(Yahoo!ブログを対象,Yahoo!側で設定したカテゴリに適合した内容の文とそうでない文を判別)と会話タイプ(国会会議録を対象,質問,回答,議事進行,呼びかけ,その他を文単位で定義)の属性を追加した。判定者間の高い一致率を確認し,作業の拡張性を確認した。また,アノテーションの使用した予算は,前年度に比べて,(新聞を除く)データのアノテーション対象文数が約2.6倍に増加したにもかかわらず,コストは,概算で8%低減し,本戦略のコストパフォーマンスの向上を確認した。
|