研究課題/領域番号 |
16K00441
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 岡山県立大学 |
研究代表者 |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2018年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2017年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2016年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 自動タイトル付与 / 自動要約 / 自然言語処理 / 索引付け / タイトル生成 / 言語資源 / 文書要約 / 段落タイトル生成 / 表題生成 / 情報組織化 / 文縮約 |
研究成果の概要 |
文章の概要、特に、論説文における議論の流れを簡潔に提示することを目的として、各段落に簡潔なタイトル(「段落タイトル」)を自動的に付与する手法を検討した。研究用のデータがほとんど存在しないことから、本研究では、小論文123文章の各段落に対して、5名の作業者が1つ以上の段落タイトルを付与したコーパスを新たに構築した。このコーパスに対する単語統計的な検討、および、深層学習に基づく既存の要約手法(タイトル生成手法)の適用結果により、段落タイトルを自動生成するにはabstractiveな要約手法が必要であること、既存手法では不十分な新たな課題を含んでいることが分かった。
|
研究成果の学術的意義や社会的意義 |
学術的意義は3点ある。1点目は論説文の議論の流れを簡潔に明示する手段としての段落タイトルに注目し、それらを3つに分類したことである。2点目は約120文章(総段落数786)の各段落に対して5つ以上の段落タイトルを付与したコーパスを構築し、その統計的性質や既存手法の限界などを明らかにしたことである。作成したコーパスは当該分野の研究に寄与できるものと思われる。3点目はタイトルの自動生成に必要な語義の扱い、特に、じでょ未登録語の意味を推定する手段を示したことである。 社会的意義は氾濫するテキスト情報の閲覧を支援する手段として段落タイトルの位置づけとその性質を明らかにしたことである。
|