研究実績の概要 |
テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している. デコーダのみからなる大規模言語モデル (LLM) の発展は目覚ましく,様々な自然言語処理タスクにおいて良好な結果を残している.一方,文書構造解析におけるそれらの有効性はこれまで議論されていない.そこで,今後の文書構造解析の研究において LLM を活用すべきかどうかを探ることを目的として,プロンプトを介してシフト還元動作を LLM で模倣する手法を提案し,その有効性を議論した.評価実験の結果,提案法は世界最高の解析性能を達成し,テキストドメインの汎化性においても優れていた.つまり,修辞構造解析においても LLM に注力すべきことが強調される結果を得た. テキスト要約の方では,事前学習済み言語モデル (PLM) を追学習することで実用的な生成型要約モデルを獲得できることが明らかになっているが,目標の要約長など要約タスクに固有の情報を PLM の事前学習時に十分考慮できているとは言えない.そこで追学習時に,エンコーダに要約長を予測させることで要約タスクに固有の情報を理解させた上で,デコーダには予測した要約長の要約を生成させるモデルを提案した. WikiHow, NYT, CNN/DMデータセットを用いた実験により,BARTよりもROUGEスコアを向上させること,WikiHowデータセットでは,GSumよりもROUGE-1, -2, -Lをそれぞれ約3.0, 1,5, 3.1ポイント向上させることを確認した.
|