2022 Fiscal Year Annual Research Report

Abstractive Neural Multi-document Summarization Considering Cross Document Structure

Research Project

Project/Area Number	21H03495
Research Institution	Tokyo Institute of Technology
Principal Investigator	奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)
Co-Investigator(Kenkyū-buntansha)	上垣外英剛奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	自然言語処理
Outline of Annual Research Achievements	テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
Strategy for Future Research Activity	単一文書内での構造解析，ニューラル要約モデルを文書横断構造解析，ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である．

Research Products
(3 results)

All 2022

All Journal Article (1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] 疑似正解データを活用したニューラル修辞構造解析2022
- Author(s)
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- Journal Title
  
  自然言語処理
  
  Volume: 29 Pages: 10-17
- DOI
  10.5715/jnlp.29.875
[Presentation] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022
- Author(s)
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura and Masaaki Nagata
- Organizer
  The 2022 Conference on Empirical Methods in Natural Language Processing EMNLP 2022
- Int'l Joint Research
[Presentation] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022
- Author(s)
  前川在, 小林尚輝, 平尾努, 上垣外英剛, 奥村学
- Organizer
  言語処理学会第29回年次大会(NLP2023)

2022 Fiscal Year Annual Research Report

Abstractive Neural Multi-document Summarization Considering Cross Document Structure

Principal Investigator

奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 疑似正解データを 活用したニューラル修辞構造解析2022

Author(s)

Journal Title

DOI

[Presentation] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022

Author(s)

Organizer

[Presentation] 逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善2022

Author(s)

Organizer

奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)

[Journal Article] 疑似正解データを活用したニューラル修辞構造解析2022

[Presentation] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022