研究課題/領域番号 |
19K20339
|
研究機関 | 東京工業大学 |
研究代表者 |
上垣外 英剛 東京工業大学, 科学技術創成研究院, 助教 (40817649)
|
研究期間 (年度) |
2019-04-01 – 2021-03-31
|
キーワード | 文圧縮 / 注意機構 / 依存構造木 |
研究実績の概要 |
2019年度は文書を対象とした段階的な自動要約を実現する上で必要であると考えられる,文を対象とした文圧縮手法の実現に着手した.この判断は,計画に沿って,エンコーダ・デコーダにより文書全体の要約を段階的に行うためには,中間状態として入力単語の取捨を行った結果である,各入力文に対する圧縮文が有用であると考えられるためである.最終的な利用としては各圧縮文を結合することにより文書単位での要約生成を行うことが見込まれる.文圧縮器の開発にあたっては可読性との関連が強い文中の統語的な依存構造に着目し,そのような構造を暗に捉えることが可能な注意機構を利用した.文圧縮を対象とした先行研究では,ある単語の依存構造上の祖先のみを再起的に辿ることにより出力される圧縮文の可読性を維持している.一方で,事前調査を行った結果,生成中に現在の圧縮文に含まれていない単語を考慮するためには,祖先のみではなく依存構造上の子孫も再帰的に辿る必要があることが判明した.この知見に基づき,ある単語の依存構造上の祖先と子孫の両者を再帰的に辿ることが可能となる注意機構を提案した. 開発した文圧縮器は英文ニュースを含むGoogle Sentence Compression datasetにおいて従来手法からの改善を示した.その成果を第243回自然言語処理研究会及びThirty-Fourth AAAI Conference on Artificial Intelligence (AAAI 2020)で発表し,自然言語処理研究会における発表では優秀研究賞を受賞した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題における2019年度の計画は段階的な要約生成に必要なエンコーダ・デコーダを作成することであった.この目的を実現するにあたり,基本となる構造に近年様々な自然言語処理分野において目覚ましい成果を上げている手法の一つであるBERTを用いることにした.これは計画書中に提示したエンコーダデコーダの構造とBERTの構造が類似している上に,現在開発されている成果をいち早く開発対象のエンコーダ・デコーダに組み込むことが可能であることによる.このエンコーダ・デコーダにおいては,実際の要約の出力として,あるいは内部状態を正しく学習するためのマルチタスクラーニング用の訓練データとして文圧縮結果が必要となる. そこで,計画書中のエンコーダ・デコーダにおける,文内の情報をエンコードするための機構を拡張する形で,文圧縮器の開発に着手した.開発した文圧縮器は英文ニュースを含むGoogle Sentence Compression datasetにおいて従来手法からの改善を示した. この実験により,BERTを用いていたとしても依然として統語情報は効果的であること,またBERTのみでは重要単語を正しく扱いきれず,従来使用されていたGloveのような事前学習済の単語分散表現も依然として強力な情報であることが判明した. 各機構を基に考えた場合,初年度で行うエンコーダ・デコーダの開発については概ね終了している状態であり,それらをつなぎ合わせた場合の検証については計画各通りに本年度に行うことから,進捗状況としては概ね順調に推移していると考えられる.
|
今後の研究の推進方策 |
初年度において段階的な要約生成に必要なエンコーダ・デコーダの基本構造としてBERTを用いることを決定し,段階的な要約を生成するための中間の出力, あるいは内部状態を正しく学習するためのマルチタスクラーニング用の訓練データとして必要となると考えられる文圧縮結果を得るために文圧縮器の開発および検証を行った. これによりBERTを用いる場合においても,統語情報と文脈に依存しない事前学習済の単語分散表現が重要であることが判明した. 本年度はこれらの知見を生かした上で,文圧縮を最終的に生成する文書要約の一時的な出力とし,BERTを用いた文書要約モデルに組み込むことにより, 計画書の最終目標である段階的な要約生成を行うエンコーダ・デコーダの性能評価を行う.
|