Project/Area Number |
16K00441
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Library and information science/Humanistic social informatics
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2018: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2017: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2016: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 自動タイトル付与 / 自動要約 / 自然言語処理 / 索引付け / タイトル生成 / 言語資源 / 文書要約 / 段落タイトル生成 / 表題生成 / 情報組織化 / 文縮約 |
Outline of Final Research Achievements |
This research aims at developing models for generating a title for each paragraph of an English text. A paragraph title is a short linguistic expression which indicates or summarizes information of the given paragraph. A sequence of paragraph titles is useful representation of the text, expressing its argumentation line. In this work, we created a corpus of paragraph titles, composed by humans. We found that 46% of word tokens in a title do not appear in the corresponding paragraph in average, which means that we need ‘abstractive’ summarization. We, then, applied state-of-the-art title generation models, such as encode-decoder models and transformer models, to our corpus and found that two models produced relatively good performance at 34 rouge-1 score, but rated as ‘does not include main idea’ in average by human evaluators . This means that the corpus can provide a challenging task for abstractive title generation.
|
Academic Significance and Societal Importance of the Research Achievements |
学術的意義は3点ある。1点目は論説文の議論の流れを簡潔に明示する手段としての段落タイトルに注目し、それらを3つに分類したことである。2点目は約120文章(総段落数786)の各段落に対して5つ以上の段落タイトルを付与したコーパスを構築し、その統計的性質や既存手法の限界などを明らかにしたことである。作成したコーパスは当該分野の研究に寄与できるものと思われる。3点目はタイトルの自動生成に必要な語義の扱い、特に、じでょ未登録語の意味を推定する手段を示したことである。 社会的意義は氾濫するテキスト情報の閲覧を支援する手段として段落タイトルの位置づけとその性質を明らかにしたことである。
|