研究概要 |
自動要約研究では,従来,主として文書中の単語の出現頻度を手がかりとして重要な話題を含む箇所を抽出する手法が用いられてきた.しかしながら,たとえ同じ文書集合が与えられたとしても,その中で重視する観点は,個々の利用者の検索の目的によって異なる.観点はさまざまなものが考えられるが,今年度は,(1)話題と主観情報,特に意見(肯定,否定)に着目した複数文書要約と,(2)感情ならびに感情が生じる理由の分析について研究を行った. (1)については,文タイプ付与の精緻化について,文脈(前後の文の文タイプ)の影響を明らかにした.また,英語文書を対象とした文タイプの自動付与を実現した.さらに,要約の国際的な評価会であるDUC(Document Understanding Conference)に参加し,利用者の検索意図として主観情報を要求する質問を分類し,これらの質問に対し,主観晴報を含む文を抽出して要約を作成することの効果について検証した.その結果,肯定と否定を同時に求める要求("positive and negative factors"や"pros and cons")に焦点を当てた要約作成には,主観情報の抽出が効果的であることがわかった.また,日本語文書について,複数の被験者による要約のゆれを考慮した要約評価手法の分析のために,6人の被験者により主観情報に着目した要約のデータセットを作成した. さらに,より挑戦的なタスクとして(2)の感情とその理由を抽出するための分析も行った.文書ジャンルは,(1)では主に新聞記事を対象としていたのに対し,(2)では書評や映画レビューなどを対象とした.この異なる文書特性の上では,自分が求める書籍や映画を推薦するために,感情とその感情が生じる理由を抽出することが重要であることを明らかにした. これまでの研究により,検索意図として,主観情報を反映した複数文書要約についての研究はおおむね目標を達成したが,課題として被験者のゆれを考慮した評価手法と,異なる文書ジャンルにおける感情や理由の抽出の必要性が明らかになった.最終年度は,これらの課題に取り組む.
|