2020 Fiscal Year Annual Research Report
Efficient training for neural encoder-decoders on a large amount of training data
Project/Area Number |
18K18119
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高瀬 翔 東京工業大学, 情報理工学院, 助教 (40817483)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 自然言語処理 / ニューラルネットワーク / 機械翻訳 |
Outline of Annual Research Achievements |
本研究の目的は逐次的にモデルを更新可能なエンコーダ・デコーダモデルの実現である。具体的には、大量の学習データで学習済みの、高性能なエンコーダ・デ コーダについて、学習データが追加された際に、既存の学習データも含めた全データでの学習ではなく、新規に追加された学習データでのみ学習を行ったモデル を用意し、大量のデータで学習したモデルと適切に組み合わせる手法の実現を目指す。最終年度は、モデルの組み合わせ手法に関する研究を行った。具体的には、Mixture of Expertsの考えを応用し、学習済みの複数のモデルについて、与えられた入力に適切なモデルを選択可能になるようなネットワークの設計、学習を行った。Mixture of Expertsでは、すべてのモデルを均等に使用せず、特定のモデルのみを使用してしまうという状況がままある、これを防ぐために、モデル選択の分散が大きくなるような制約を導入したが、全体の性能が下がってしまい、上手く作用しない結果となってしまった。 一方で、モデルの組み合わせ方法を応用し、基底ベクトルの組み合わせで埋め込みを構築する手法の研究を行った。これは、ランダムベクトルを基底ベクトルとして用意しておき、この組み合わせで各単語のベクトル表現(埋め込み表現)を計算するものである。元来の埋め込み表現は語彙数分のベクトルを用意する必要があったため、パラメータ数が膨大になってしまっていたが、これの大幅な削減を可能とした。この成果は、機械学習分野のトップ会議である、NeurIPSに採択され、発表を行った。
|