• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

Abatractive Generation of Paragraph Titles

Research Project

Project/Area Number 16K00441
Research InstitutionOkayama Prefectural University

Principal Investigator

菊井 玄一郎  岡山県立大学, 情報工学部, 教授 (80395011)

Project Period (FY) 2016-04-01 – 2020-03-31
Keywords自動要約 / タイトル生成 / 言語資源 / 自然言語処理
Outline of Annual Research Achievements

前年度に作成した「段落タイトル付与コーパス」について、その定量的な特性を調査するとともに、当該コーパスを対象に深層学習に基づく自動要約(タイトル生成)プログラムを適用し、既存手法で段落タイトルの自動生成がどの程度可能かを評価した。
まず、本コーパスの特徴について述べる。コーパスは英語の小論説123文章の各段落(段落総数786)に対して5名の英語ネイティブ作業者が独立に1つ以上のタイトルを付与したもので、タイトルの総数は4,015、タイトル長の平均は6-7単語程度である。タイトル中の単語のうち、元の文章に含まれる単語の割合(token数で計算)は、元の文書をタイトル生成対象の段落のみに絞った場合で53.7%、その前後の段落を加えた場合に60.7%、元の文章全体に広げても66.5%である。また、名詞だけに注目すると同一段落で45%程度である。すなわち、タイトル中の単語の半分程度は元の段落に出現しない単語であり、本コーパスの段落タイトルの生成にはabstractiveな手法が必須であることが分かった。
前記コーパスを対象に次の4つの自動要約手法を適用した。1)エンコーダ・デコーダ双方にRNNを用いたencoder-decoder手法(実装はOPEN NMT)、2)前者においてエンコーダを双方向RNNにしたもの、3) GPT2 を用いて元の段落を先行文脈として文生成を行ったもの、3)転移学習型の要約モデルのBERTAbsである(CNN/DailyMailでfinetune)。その結果、2),3)が自動評価ROUGE-1でそれぞれ35および34と相対的に高い値を示した。しかし、これら2つの手法に対して人手評価を行ったところ、いずれも、内容的な適切性の点を満たしていないことが分かった。これらより、作成コーパスは今後のabstractive型のタイトル生成の研究に利用可能であると考えられる。

Remarks

本研究により作成したコーパスは当該分野の研究者に有効活用していただくため、公開を計画している。公開にあたっては(特定非営利活動法人)言語資源協会(GSK)を検討している。

  • Research Products

    (2 results)

All 2020

All Presentation (2 results)

  • [Presentation] 潜在変数モデルを用いた同義・反義関係識別2020

    • Author(s)
      城内聡志、菊井玄一郎
    • Organizer
      言語処理学会 第26回年次大会
  • [Presentation] 英語エッセイテキストに対する段落タイトル付与コーパス2020

    • Author(s)
      菊井玄一郎、松岩祥平
    • Organizer
      2020年人工知能学会全国大会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi