研究概要 |
自動要約研究では,従来,主として文書中の単語の出現頻度を手がかりとして重要な話題を含む箇所を抽出する手法が用いられてきた.しかしながら,たとえ同じ文書集合が与えられたとしても,その中で重視する観点は,個々の利用者の検索の目的によって異なる.観点はさまざまなものが考えられるが,本研究では、(1)話題と利用者が求める情報のタイプ(事実か、意見かなど)、(2)話題と主観情報,特に意見(肯定,否定)に着目した複数文書要約と,(3)感情ならびに感情が生じる理由の分析について研究を行った。 今年度は、(1)(2)の研究をまとめるために、意見要約における,文書の意見性(文書ジャンル),文の意見性,意見句,意見保有者,意見の極性,強度などの意見属性の効果について調べた.DUC2006の英語の要約データセットから意見に関わる15トピックを選択し,上記の属性に着目して要約を作成し、ROUGEとBEを用いて評価した結果、日本語要約の先行研究と同様に,英語の要約でも文タイプと意見性と文書ジャンルの情報を要約のパラメタとして組み合わせることで,条件によっては精度が向上し、意見の強さも精度向上にわずかながら寄与することがわかった.また、これまでの研究成果をより広い範囲で他の研究グループと比較評価し、領域として研究を推進するために、NTCIR-6において日英中の意見分析用コーパスを構築し、意見分析について国内外の15の研究グループと同じデータを用いて研究を進めた。 (3)については、テキスト中に表明された理由の構成要素として「主体」、「対象」、「感情」、「根拠・理由」に着目し、分析した。20名の被験者調査により、他者の意見や他者が表明した感情を自己の行動の選択時に参考にするかどうか(すなわち、他者の表明を信頼するかどうか)は、意見や感情の根拠や理由が示されていることが重要であることをあきらかにした。
|