2020 Fiscal Year Annual Research Report
段階的な抽出と書き換えに基づく生成型要約手法の研究
Project/Area Number |
19K20339
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
上垣外 英剛 東京工業大学, 科学技術創成研究院, 助教 (40817649)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | 文書要約 / 文圧縮 / 深層学習 / BERT |
Outline of Annual Research Achievements |
初年度に依存構造木の情報を用いてデコーダからエンコーダへの注意を教師あり学習する文圧縮手法を提案した。実験の結果、提案手法により出力された圧縮文は、文法性を低下させることなく情報性を向上させることが判明した。本研究の成果を情報処理学会第243回自然言語処理研究会で発表[1]し、優秀賞及び2020年度山下記念研究賞を受賞した。また、この研究内容を発展させたものが人工知能分野のトップ国際会議AAAI 2020にて採択された。 次年度には前年度に得た結果に基づき、重要な単語の埋め込みをより詳細に扱うために知識グラフの埋め込みに関する研究と、前年度に作成された文圧縮器の文書要約への適用を進めた。知識グラフの埋め込みに関する研究においては、学習時に使用される負例サンプリングとソフトマックス交差誤差関数が同一の傾向を示す条件を導いた。この内容をNLP2021にて発表し委員特別賞を受賞した。またこの内容を発展させた研究を自然言語処理分野のトップ国際会議であるACL-IJCNLP2021に投稿し、採択された。また、文圧縮器の文書要約への適用においては、ニューラルネットワークに基づくグラフ埋め込み法を適用することで、前年度のものよりさらなる性能向上を果たした。この構造の改良により、Google Sentence CompressionおよびBroadcast News Corpusの両データセットにおいて、性能向上を確認している。この文圧縮器を利用してエンコーダ・デコーダで段階的な文書要約を行う際に必要となるデータセットを作成し、このデータを利用してエンコーダ・デコーダで段階的な文書要約を行うことにより、CNN/Daily Mailデータセットにおいて既存の手法よりも高いROUGEスコアを示すことを確認した。現在、この成果をAAAI-22に投稿することを計画している。
|