研究実績の概要 |
前年度に作成した「段落タイトル付与コーパス」について、その定量的な特性を調査するとともに、当該コーパスを対象に深層学習に基づく自動要約(タイトル生成)プログラムを適用し、既存手法で段落タイトルの自動生成がどの程度可能かを評価した。 まず、本コーパスの特徴について述べる。コーパスは英語の小論説123文章の各段落(段落総数786)に対して5名の英語ネイティブ作業者が独立に1つ以上のタイトルを付与したもので、タイトルの総数は4,015、タイトル長の平均は6-7単語程度である。タイトル中の単語のうち、元の文章に含まれる単語の割合(token数で計算)は、元の文書をタイトル生成対象の段落のみに絞った場合で53.7%、その前後の段落を加えた場合に60.7%、元の文章全体に広げても66.5%である。また、名詞だけに注目すると同一段落で45%程度である。すなわち、タイトル中の単語の半分程度は元の段落に出現しない単語であり、本コーパスの段落タイトルの生成にはabstractiveな手法が必須であることが分かった。 前記コーパスを対象に次の4つの自動要約手法を適用した。1)エンコーダ・デコーダ双方にRNNを用いたencoder-decoder手法(実装はOPEN NMT)、2)前者においてエンコーダを双方向RNNにしたもの、3) GPT2 を用いて元の段落を先行文脈として文生成を行ったもの、3)転移学習型の要約モデルのBERTAbsである(CNN/DailyMailでfinetune)。その結果、2),3)が自動評価ROUGE-1でそれぞれ35および34と相対的に高い値を示した。しかし、これら2つの手法に対して人手評価を行ったところ、いずれも、内容的な適切性の点を満たしていないことが分かった。これらより、作成コーパスは今後のabstractive型のタイトル生成の研究に利用可能であると考えられる。
|