2018 Fiscal Year Research-status Report
大規模データにおけるエンコーダ・デコーダモデルの効率的な学習
Project/Area Number |
18K18119
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高瀬 翔 東京工業大学, 情報理工学院, 研究員 (40817483)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | ニューラルネットワーク / 言語モデル |
Outline of Annual Research Achievements |
本研究の目的は逐次的にモデルを更新可能なエンコーダ・デコーダモデルの実現である。具体的には、大量の学習データで学習済みの、高性能なエンコーダ・デコーダについて、学習データが追加された際に、既存の学習データも含めた全データでの学習ではなく、新規に追加された学習データでのみ学習を行ったモデルを用意し、大量のデータで学習したモデルと適切に組み合わせる手法の実現を目指す。本研究において、大量の学習データ、および、追加の学習データのどちらの学習についても、高い性能を達成するエンコーダ・デコーダ、すなわち、高品質なエンコーダ・デコーダモデルは必須である。 前年度は主に、言語モデル、すなわち、エンコーダ・デコーダモデルのデコーダ部分に関して、性能向上を目指す研究を行った。具体的には、言語モデルの出力する確率分布について、1つの確率分布ではなく、複数の確率分布を計算し、重み付き和を計算して最終的な確率分布とする、Mixture of Softmaxesという手法を拡張し、複数層のニューラルネットワークの各層から確率分布を計算し、組み合わせる手法を提案した。さらに、部分文字列から高品質な単語の分散表現を計算し、言語モデルに用いる手法を提案した。これらの手法は、言語モデルタスクにおける、標準的なベンチマークデータセットで世界一の性能を達成しており、さらに、エンコーダ・デコーダモデルに組み込んだ際の性能向上も確認した。 前年度の成果は、EMNLPとAAAIという、それぞれ、言語処理分野、人工知能分野のトップ会議に採択され、発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績に記したように、前年度の成果としては、高品質なエンコーダ・デコーダモデルを目指し、言語モデルタスクの標準的なベンチマークデータセットにおいて、最も良い性能を達成すると共に、既存のエンコーダ・デコーダの性能を引き上げる手法を提案した。一方で、本研究の中核である、モデルの組み合わせ手法に関しては探求が芳しくない。 近年では、企業が学術論文を発表することがより盛んになっておきており、前年度も、Facebookが既存のエンコーダ・デコーダモデルを高速に学習する手法を提案した。学習の高速化としては、彼らのような、全データでの学習を想定した状況が一般的である。しかしながら、この手法は大量の計算資源を必要とするため、誰しもが再現可能な手法とは言い難い。このため、本研究の目標のように、追加の学習データを用いる際の計算コスト自体を減らす手法が求められる。
|
Strategy for Future Research Activity |
前年度の高品質なエンコーダ・デコーダモデルを元に、当初の研究計画通り、まず、大量の学習データでの学習を行い、ついで、追加の学習データでの学習を行ったモデルを用意し、この2つのモデルの組み合わせ手法を考える。この組み合わせ手法については、前年度に研究した、確率分布の組み合わせ手法を応用することが考えられる。具体的には、前年度の確率分布を組み合わせる手法は各層からの出力の重みを計算していたが、この、各層の部分を各モデルに変更すれば良いと考えられる。本年度はこの重みを計算するモデルを組み合わせた、エンコーダ・デコーダの探求を行う予定である。
|
Causes of Carryover |
研究代表者は2018年度に所属を変更しており、前所属では旅費は潤沢だったため、本研究費から支払う必要性がなかったが、現所属では国際会議や国内学会での発表時の旅費も本予算から支払わなければならないケースが考えられる。また、タワー型PCを購入する予定として申請した当初の予算から減額されている。これらにより、当初の予算計画を見直す必要が生じてきた。今年度以降の使用計画としては、まず、当初の予定通り、GPUを搭載したタワー型PCの購入を考えている、ただし、当初は3台を購入予定であったが、これを1台にする予定である。また、近年、GPUの性能の発展は著しいので、購入時期は慎重に考えたい。 さらに、当初タワー型PCの購入費として見込んでいたものを国際会議や国内学会での旅費に用いる予定である。
|