• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Abstractive Neural Multi-document Summarization Considering Cross Document Structure

Research Project

Project/Area Number 21H03495
Research InstitutionTokyo Institute of Technology

Principal Investigator

奥村 学  東京工業大学, 科学技術創成研究院, 教授 (60214079)

Co-Investigator(Kenkyū-buntansha) 上垣外 英剛  奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
Project Period (FY) 2021-04-01 – 2024-03-31
Keywords自然言語処理
Outline of Annual Research Achievements

テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.

この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世
界最高性能を達成した.

また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.

この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世
界最高性能を達成した.

また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.

Strategy for Future Research Activity

単一文書内での構造解析,ニューラル要約モデルを文書横断構造解析,ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である.

  • Research Products

    (3 results)

All 2022

All Journal Article (1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] 疑似正解データを 活用したニューラル修辞構造解析2022

    • Author(s)
      小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
    • Journal Title

      自然言語処理

      Volume: 29 Pages: 10-17

    • DOI

      10.5715/jnlp.29.875

  • [Presentation] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022

    • Author(s)
      Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura and Masaaki Nagata
    • Organizer
      The 2022 Conference on Empirical Methods in Natural Language Processing EMNLP 2022
    • Int'l Joint Research
  • [Presentation] 逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善2022

    • Author(s)
      前川在, 小林尚輝, 平尾努, 上垣外英剛, 奥村学
    • Organizer
      言語処理学会第29回年次大会(NLP2023)

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi