• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Abatractive Generation of Paragraph Titles

Research Project

Project/Area Number 16K00441
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Research Field Library and information science/Humanistic social informatics
Research InstitutionOkayama Prefectural University

Principal Investigator

KIKUI Genichiro  岡山県立大学, 情報工学部, 教授 (80395011)

Project Period (FY) 2016-04-01 – 2020-03-31
Project Status Completed (Fiscal Year 2019)
Budget Amount *help
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2018: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2017: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2016: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords自動タイトル付与 / 自動要約 / 自然言語処理 / 索引付け / タイトル生成 / 言語資源 / 文書要約 / 段落タイトル生成 / 表題生成 / 情報組織化 / 文縮約
Outline of Final Research Achievements

This research aims at developing models for generating a title for each paragraph of an English text. A paragraph title is a short linguistic expression which indicates or summarizes information of the given paragraph. A sequence of paragraph titles is useful representation of the text, expressing its argumentation line.
In this work, we created a corpus of paragraph titles, composed by humans. We found that 46% of word tokens in a title do not appear in the corresponding paragraph in average, which means that we need ‘abstractive’ summarization. We, then, applied state-of-the-art title generation models, such as encode-decoder models and transformer models, to our corpus and found that two models produced relatively good performance at 34 rouge-1 score, but rated as ‘does not include main idea’ in average by human evaluators . This means that the corpus can provide a challenging task for abstractive title generation.

Academic Significance and Societal Importance of the Research Achievements

学術的意義は3点ある。1点目は論説文の議論の流れを簡潔に明示する手段としての段落タイトルに注目し、それらを3つに分類したことである。2点目は約120文章(総段落数786)の各段落に対して5つ以上の段落タイトルを付与したコーパスを構築し、その統計的性質や既存手法の限界などを明らかにしたことである。作成したコーパスは当該分野の研究に寄与できるものと思われる。3点目はタイトルの自動生成に必要な語義の扱い、特に、じでょ未登録語の意味を推定する手段を示したことである。
社会的意義は氾濫するテキスト情報の閲覧を支援する手段として段落タイトルの位置づけとその性質を明らかにしたことである。

Report

(5 results)
  • 2019 Annual Research Report   Final Research Report ( PDF )
  • 2018 Research-status Report
  • 2017 Research-status Report
  • 2016 Research-status Report
  • Research Products

    (3 results)

All 2020 2019

All Presentation (3 results)

  • [Presentation] 潜在変数モデルを用いた同義・反義関係識別2020

    • Author(s)
      城内聡志、菊井玄一郎
    • Organizer
      言語処理学会 第26回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 英語エッセイテキストに対する段落タイトル付与コーパス2020

    • Author(s)
      菊井玄一郎、松岩祥平
    • Organizer
      2020年人工知能学会全国大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] Semantic Autoencoderを用いた低頻度語の埋め込み生成2019

    • Author(s)
      城内聡志
    • Organizer
      言語処理学会第25回年次大会
    • Related Report
      2018 Research-status Report

URL: 

Published: 2016-04-21   Modified: 2021-02-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi