2021 Fiscal Year Annual Research Report
Abstractive Neural Multi-document Summarization Considering Cross Document Structure
Project/Area Number |
21H03495
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
Co-Investigator(Kenkyū-buntansha) |
上垣外 英剛 東京工業大学, 科学技術創成研究院, 助教 (40817649)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 自然言語処理 |
Outline of Annual Research Achievements |
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.
ニューラル機械翻訳で提案された逆翻訳による疑似正解データの活用にヒントを得て,既存の修辞構造解析器を用いて自動的に作成された大規模な疑似正解データを用いて解析器を事前学習し,本来の訓練データを用いて追学習することで性能を改善する枠組みを提案した.また,疑似正解データを大量かつ高品質に獲得するために,複数の解析器が出力する木の間 で重複する部分木を疑似正解データとして効率よく抽出するアルゴリズムを提案した.
また,このテキスト内での文書構造解析結果を活用したニューラル文書要約モデルを提案し,要約の性能向上に寄与することを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.
ニューラル機械翻訳で提案された逆翻訳による疑似正解データの活用にヒントを得て,既存の修辞構造解析器を用いて自動的に作成された大規模な疑似正解データを用いて解析器を事前学習し,本来の訓練データを用いて追学習することで性能を改善する枠組みを提案した.また,疑似正解データを大量かつ高品質に獲得するために,複数の解析器が出力する木の間 で重複する部分木を疑似正解データとして効率よく抽出するアルゴリズムを提案した.
また,このテキスト内での文書構造解析結果を活用したニューラル文書要約モデルを提案し,要約の性能向上に寄与することを確認した.
|
Strategy for Future Research Activity |
単一文書内での構造解析,ニューラル要約モデルを文書横断構造解析,ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である.
|
Research Products
(5 results)