研究課題/領域番号 |
21H03495
|
研究機関 | 東京工業大学 |
研究代表者 |
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究分担者 |
上垣外 英剛 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 自然言語処理 |
研究実績の概要 |
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.
この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世 界最高性能を達成した.
また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.
この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世 界最高性能を達成した.
また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.
|
今後の研究の推進方策 |
単一文書内での構造解析,ニューラル要約モデルを文書横断構造解析,ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である.
|