2019 Fiscal Year Annual Research Report
Abatractive Generation of Paragraph Titles
Project/Area Number |
16K00441
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 自動要約 / タイトル生成 / 言語資源 / 自然言語処理 |
Outline of Annual Research Achievements |
前年度に作成した「段落タイトル付与コーパス」について、その定量的な特性を調査するとともに、当該コーパスを対象に深層学習に基づく自動要約(タイトル生成)プログラムを適用し、既存手法で段落タイトルの自動生成がどの程度可能かを評価した。 まず、本コーパスの特徴について述べる。コーパスは英語の小論説123文章の各段落(段落総数786)に対して5名の英語ネイティブ作業者が独立に1つ以上のタイトルを付与したもので、タイトルの総数は4,015、タイトル長の平均は6-7単語程度である。タイトル中の単語のうち、元の文章に含まれる単語の割合(token数で計算)は、元の文書をタイトル生成対象の段落のみに絞った場合で53.7%、その前後の段落を加えた場合に60.7%、元の文章全体に広げても66.5%である。また、名詞だけに注目すると同一段落で45%程度である。すなわち、タイトル中の単語の半分程度は元の段落に出現しない単語であり、本コーパスの段落タイトルの生成にはabstractiveな手法が必須であることが分かった。 前記コーパスを対象に次の4つの自動要約手法を適用した。1)エンコーダ・デコーダ双方にRNNを用いたencoder-decoder手法(実装はOPEN NMT)、2)前者においてエンコーダを双方向RNNにしたもの、3) GPT2 を用いて元の段落を先行文脈として文生成を行ったもの、3)転移学習型の要約モデルのBERTAbsである(CNN/DailyMailでfinetune)。その結果、2),3)が自動評価ROUGE-1でそれぞれ35および34と相対的に高い値を示した。しかし、これら2つの手法に対して人手評価を行ったところ、いずれも、内容的な適切性の点を満たしていないことが分かった。これらより、作成コーパスは今後のabstractive型のタイトル生成の研究に利用可能であると考えられる。
|
Remarks |
本研究により作成したコーパスは当該分野の研究者に有効活用していただくため、公開を計画している。公開にあたっては(特定非営利活動法人)言語資源協会(GSK)を検討している。
|