研究実績の概要 |
我々が世界に先駆けて開発した,ニューラルモデルの1つであるencoder-decoderモデルによる非抽出型の文要約において出力文の長さを制御する手法[1]を受け,出力長を考慮した文要約モデルを評価するためのコーパス JApanese MUlti-Length Headline Corpus (JAMUL)を提案,開発した.
[1] Yuta Kikuchi, Graham Neubig, Ryohei Sasano, Hiroya Takamura and Manabu Okumura, Controlling Output Length in Neural Encoder-Decoders, to appear in EMNLP 2016, 2016.
次に,原文書の談話構造を考慮する新たな抽出型ニューラル要約モデルを提案した.修辞構造理論に代表される談話構造を表現する枠組みは,文書中の文や単語などの間に内在する意味的なつながりに着目する.リカレントニューラルネットワーク (RNN)に基づく抽出型手法が 2016 年以降,単一文書要約において良い性能を示している.この手法は原文書を文の系列とみなしベクトル化し文の重要度を決定し,文間の談話構造は明示的には利用しない.談話構造に関する情報の欠如は,重要度スコア決定における性能劣化や出力要約の一貫性の低下を引き起こす可能性がある.そこで,談話構造解析器の解析誤りによる影響を抑えながら,RNN を用いた要約モデルの性能における利点を活用するため,原文書の談話構造と文の重要度スコアリング器を同時に学習する新たな枠組みを提案した.DailyMail データセットを用いた評価実験において,提案手法がベースラインよりも ROUGE 値および人手評価において良い評価値を得た.さらに,既存の性能の良い手法と同等もしくは,より良い結果を得た.
|