研究概要 |
本年度は,主観的な情報要求を反映して複数の文書から抽出した情報の精度を適切に評価するために,国際ワークショップNTCIR-6において日本語,英語,中国語を対象とした意見分析のためのタスクを開催し,意見抽出技術について評価を行った.本タスクでは,1.意見文判定(文を単位として意見性の有無を判定した),2.極性判定(意見性があると判定された文の極性について,肯定(POS),否定(NEG),中立(NEU)のいずれか判定した),3.意見保有者の判別(意見性があると判定された文について,意見の保有者(意見を表明または保有している者)は誰(人,組織,国など)であるかを判定した)などのサブタスクを設定し,6カ国12チームの意見抽出技術を評価した.その結果,意見文判定については、言語によるアプローチの違いこそあるものの,一定の評価結果が得られた.一方,意見保有者の判別,極性判定については,言語,参加チームごとに評価結果のばらつきが見られ,技術が成熟していないものの,辞書の作成やコーパスの分析を丁寧に行ったチームが,優れた結果を出していることを明らかにした. また,意見を表明する主体である意見保有者の判別は,意見分析研究の中では新しい試みであり,見方を区別した意見の集約が期待できる研究である.本研究では,意見文における著者と第三者の観点の違いを,書き方のスタイルに着目することで区別する新しい意見保有者判別手法を提案した.NTCIR-6意見分析タスクでは,提案手法は,日本語に関しては一定の精度が得られた.英語に関しては,コーパスの分析を通して,著者が意見保有者となる場合の書き方の傾向を明らかにし,提案手法を改善した.本提案により,主観的な個別の情報要求を区別して情報を集約することが可能となった. その他,映画ブログ,ソーシャルブックマーク,地理情報,議事録などさまざまな媒体を対象とし,主観的な情報要求を反映した情報を集約する技術について研究を進めた.
|