テキスト間の関係を考慮した複数テキスト生成型ニューラル要約に関する研究

研究課題

研究課題/領域番号	21H03495
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	東京工業大学
研究代表者	奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)
研究分担者	上垣外英剛奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円) 2023年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円) 2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2021年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
キーワード	自然言語処理 / 複数テキスト要約 / ニューラルモデル / 生成型要約 / 文書横断文間関係
研究開始時の研究の概要	本研究課題では，ニューラル要約モデルを2段階の連結モデルとして構成し， 1) 文書横断共参照解析や文書横断構造解析の解析結果を考慮した上で，要約文集合をその順序とともに生成するニューラルモデル，2) 冗長性の度合いや文の順序の首尾一貫性の度合いを元に，順序付き要約文集合をリランキングし，最適な順序付き要約文集合を出力するニューラルモデルを研究開発する．1)の研究開発は，文書横断共参照解析および文書横断構造解析技術の研究開発と，それらの解析結果をencodeして要約文集合を生成するニューラルモデルの研究開発に細分化できるので，結果的に本研究課題は3つのコア技術に分解し研究開発を行なうことになる．
研究実績の概要	テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
今後の研究の推進方策	単一文書内での構造解析，ニューラル要約モデルを文書横断構造解析，ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である．

報告書

(2件)

2022 実績報告書
2021 実績報告書

研究成果

(8件)

すべて 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 5件)

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022
- 著者名/発表者名
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- 雑誌名
  
  自然言語処理
  
  巻: 29 号: 3 ページ: 875-900
- DOI
  10.5715/jnlp.29.875
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実績報告書
- 査読あり
[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022
- 著者名/発表者名
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura and Masaaki Nagata
- 学会等名
  The 2022 Conference on Empirical Methods in Natural Language Processing EMNLP 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022
- 著者名/発表者名
  前川在, 小林尚輝, 平尾努, 上垣外英剛, 奥村学
- 学会等名
  言語処理学会第29回年次大会(NLP2023)
- 関連する報告書
  2022 実績報告書
[学会発表] 言語モデルと解析戦略の観点からの修辞構造解析器の比較2022
- 著者名/発表者名
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- 学会等名
  言語処理学会第28回年次大会(NLP2022)
- 関連する報告書
  2021 実績報告書
[学会発表] Considering Nested Tree Structure in Sentence Extractive Summarization with Pre-trained Transformer2021
- 著者名/発表者名
  Jingun Kwon, Naoki Kobayashi, Hidetaka Kamigaito and Manabu Okumura
- 学会等名
  The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] A Language Model-based Generative Classifier for Sentence-level Discourse Parsing2021
- 著者名/発表者名
  Ying Zhang, Hidetaka Kamigaito and Manabu Okumura
- 学会等名
  The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Abstractive Document Summarization with Word Embedding Reconstruction2021
- 著者名/発表者名
  Jingyi You, Chenlong Hu, Hidetaka Kamigaito, Hiroya Takamura and Manabu Okumura
- 学会等名
  RANLP 2021
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Improving Neural RST Parsing Model with Silver Agreement Subtrees2021
- 著者名/発表者名
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura and Masaaki Nagata
- 学会等名
  NAACL-HLT 2021
- 関連する報告書
  2021 実績報告書
- 国際学会

テキスト間の関係を考慮した複数テキスト生成型ニューラル要約に関する研究

研究代表者

奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)

17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 言語モデルと解析戦略の 観点からの修辞構造解析器の比較2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Considering Nested Tree Structure in Sentence Extractive Summarization with Pre-trained Transformer2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Language Model-based Generative Classifier for Sentence-level Discourse Parsing2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Abstractive Document Summarization with Word Embedding Reconstruction2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improving Neural RST Parsing Model with Silver Agreement Subtrees2021

著者名/発表者名

学会等名

関連する報告書

奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)

[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022

[学会発表] 言語モデルと解析戦略の観点からの修辞構造解析器の比較2022