2020 Fiscal Year Annual Research Report
Project/Area Number |
20J10726
|
Research Institution | The University of Tokyo |
Principal Investigator |
磯沼 大 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Keywords | 自然言語処理 / 自動文書要約 / 教師なし学習 |
Outline of Annual Research Achievements |
情報爆発が叫ばれる現代において、文章から重要な情報を抽出し纏める自動文書要約技術への期待は日々高まっている。自動文書要約のアプローチは、要約に相応しい文や節を抽出する抽出型要約と、単語や句の言い換え・一般化を行う生成型要約に分けられる。生成型要約はより人手に近い自動要約を実現でき、その確立は自動要約研究の大きな目標である。一方で、生成型要約は見本となる要約(参照要約)を大量に要し、現実の文書の多くは参照要約の数が少なく、それらの用意に多大な労力を要することから、実用上の大きな障害となっている。 そこで本研究は、単一文書に適用可能な教師なし要約生成手法を提案し、その有用性について明らかにすることを目的とする。具体的にはACL2019にて発表した談話構造木を用いた教師なし要約生成手法を応用し、談話構造木をトピックごとに分割することで、各トピックに関する要約文を教師データなしに生成する。本年度では、トピック分割を行うための手法として木構造トピックモデルに着目し、文書要約への応用にあたりその学習スピードの向上に取り組んだ。 既存の木構造トピックモデルは大規模文書への適用が困難なことから、本研究では並列学習が可能な木構造トピックモデルを開発した。提案法は従来の木構造トピックモデルに対し学習時間が約15倍短縮され、要約生成など大量の文書を要するアプリケーションへの応用が可能になった。本研究成果は計算言語学分野の国際会議ACL2020に採択された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度では、トピック分割を行うための手法として木構造トピックモデルに着目し、文書要約への応用にあたりその学習スピードの向上に取り組んだ。提案法は従来の木構造トピックモデルに対し学習時間が約15倍短縮され、要約生成など大量の文書を要するアプリケーションへの応用が可能になった。本研究成果は計算言語学分野の国際会議ACL2020に採択された。 上記成果に加え、本年度では上記研究成果を用いた要約生成手法の開発にも着手し、国内学会・研究会にて複数件の賞を受賞した。 以上のことから、研究計画は概ね順調に進捗していると認識している。
|
Strategy for Future Research Activity |
今後は、既存の談話構造木を用いた教師なし要約生成手法を応用し、得られた談話構造木のトピック分割による教師なし要約生成に取り組む。既存手法は1文で構成された要約の生成に留まっていたが、本研究ではトピック分割により、複数文で構成された要約生成を実現する。
|
Research Products
(5 results)