2019 Fiscal Year Annual Research Report
関係知識と非定形知識の利用を統合した自然言語読解システムの構築
Project/Area Number |
19J13238
|
Research Institution | Tohoku University |
Principal Investigator |
鈴木 正敏 東北大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2019-04-25 – 2021-03-31
|
Keywords | 自然言語処理 / 知識処理 / 質問応答システム / 言語モデル / クイズ |
Outline of Annual Research Achievements |
本年度は、最先端の言語モデルが保持する非定型知識について調査する研究を行った。この1、2年の間で、大量のテキストデータを用いて訓練された巨大な言語モデルが多数提案され、それらが含意関係認識や質問応答などの自然言語処理の課題に対して高い性能を示している。このような言語モデルは百科事典の文章等を訓練に用いているため、訓練の過程でモデルが世界知識(特に非定型知識)を何らかの形で学習・保持していると考えられているが、保持できる知識の量や汎化性能についての詳しい検証は未だ十分にされていない。そこで、本年度の研究では、最先端の言語モデルが非定型知識をどの程度保持しているか、および、正しい知識を想起できるかについて検証を行った。評価には早押しクイズの質問応答タスクを用い、クイズ問題における、難しいヒントから易しいヒントまで多様な内容の文が段階的に与えられるという性質を利用した。実験の結果、言語モデルの非定型知識の想起能力が入力文の言い換えなどに対して頑健であること、さらに、クイズ以外のテキストを用いて訓練データを拡張することでモデルが新たに知識を学習できることを示唆する実験結果が得られた。 さらに本年度は、日本における質問応答システムの研究を促進するため、日本語の質問応答データセットの作成、並びに、本データセットを活用した、質問応答システムの評価型ワークショップの開催に向けての準備を行った。日本語の質問応答データセットの作成にあたっては、クイズ問題作成の専門家に協力を依頼し、高品質のデータセットを新たに作成した。作成したデータセットは現在公開中であり、研究目的で自由に利用できる。また、本データセットを活用した、質問応答システムの性能を競う評価型ワークショップを2020年度中に開催することを予定しており、国内の当該分野の研究の促進を目指す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在のところ、研究内容の一部に当初の計画からの変更がいくつか生じているが、研究の問題意識は変わらずに研究を進行することができている。 計画時点では、システムの関係知識と非定型知識を用いた推論能力を評価する課題として読解問題に取り組むとしていたが、現時点ではクイズ問題を用いた質問応答タスクを評価に利用している。これは、関係知識と非定型知識の両方を注釈付与したデータセットの準備に、当初の想定以上のコストがかかることなどが理由である。また、本年度はシステムの非定型知識のみに着目として実験を行っており、関係知識と非定型知識の統合利用についての研究は次年度に移している。
|
Strategy for Future Research Activity |
今後は、言語モデルによる関係知識と非定型知識の統合利用についてさらに研究を進める。具体的には、大規模なテキストデータで訓練された言語モデルがもつ非定型知識を利用して、入力文に対して主題となる事物とその関係知識を同時に予測し、その上で推論を行うモデルを研究する。提案手法の有効性を質問応答タスクや読解タスクを用いて評価し、手法の継続的な改善に取り組む。研究の成果は、自然言語処理・計算言語学に関する国際会議および論文誌において発表を行う。 また、研究成果の展開先として、申請者が今年度中の開催に向けて準備を進めている質問応答システムの評価型ワークショップを活用し、研究成果の一般へのアウトリーチに努める。
|