• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

大規模データにおけるエンコーダ・デコーダモデルの効率的な学習

Research Project

Project/Area Number 18K18119
Research InstitutionTokyo Institute of Technology

Principal Investigator

高瀬 翔  東京工業大学, 情報理工学院, 研究員 (40817483)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywords自然言語処理 / ニューラルネットワーク
Outline of Annual Research Achievements

本研究の目的は逐次的にモデルを更新可能なエンコーダ・デコーダモデルの実現である。具体的には、大量の学習データで学習済みの、高性能なエンコーダ・デコーダについて、学習データが追加された際に、既存の学習データも含めた全データでの学習ではなく、新規に追加された学習データでのみ学習を行ったモデルを用意し、大量のデータで学習したモデルと適切に組み合わせる手法の実現を目指す。前年度の報告書にも記したように、本研究において、高品質なエンコーダ・デコーダモデルは必須である。
前年度は主に、エンコーダ・デコーダモデルのデコーダ部分に相当する、言語モデルの性能向上を目指す研究を行った。これに対し、今年度はエンコーダ・デコーダ全体に焦点を当て、生成型要約タスクの一種である見出し文生成および翻訳タスクの性能向上に取り組んだ。具体的には、生成中の単語の文内での位置を正弦波と余弦波を用いて表す際に、これらの周期の値を変化させることで、所望の長さの生成を可能にした。既存の研究では軽視されがちであるが、所望の長さの出力を行うことは要約生成の実用化を目指す上では必須の技術である。また、機械翻訳と要約など複数のタスクについて、タグを用いてタスクを表現することにより、ひとつのエンコーダ・デコーダでの学習・生成を可能とし、複数タスクでの性能向上を実現した。
前者の成果は、North American Chapter of the Association for Computational Linguistics(NAACL)という、自然言語処理分野におけるトップ会議に採択され、発表を行った。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究実績に記したように、本年度の成果としては、高品質なエンコーダ・デコーダを目指し、生成型要約、翻訳に取り組み、標準的なエンコーダ・デコーダモデルよりも高い性能を達成した。一方で、本研究の主たる焦点である、モデルの組み合わせ手法に関しては研究の進捗が芳しくない。
本年度は、自然言語処理分野のトップ会議であるNAACLにおいて、大規模なエンコーダを学習することで、様々な応用タスクで性能向上が可能であることを示す論文が発表された。この成果を元に、FacebookやGoogle、Microsoftなどの企業研究所が主となり、大規模データで学習済みのエンコーダ・デコーダモデルを元に、新規のデータ(ドメイン外のデータ)や少量のデータに適用する研究を進めている。本研究も目指すところは彼らと同じであり、学習済みのモデルのドメイン適用にも取り組む必要があると考えられる。

Strategy for Future Research Activity

本年度の成果として、要約生成と機械翻訳で高い性能を達成した、高品質なエンコーダ・デコーダを構築したので、これを元に、追加の学習データへの適用手法を考える。本年度の成果として、複数のタスクについて、タグを用いてタスクを表現することにより、ひとつのエンコーダ・デコーダでの学習・生成を可能とする手法があるが、このタグの表現を連続値で表現することができれば、追加のデータに対してのタグ値を予想し、これを用いることで、既に学習済みのモデルの性能を落とすことなく追加データへの適用ができるのではないかと考えている。しかしながら、タグ値の予測を行う、ということはそれ自体がエンコーダの学習を行うようなものであり、未知データへも適用可能な手法が構築できるかは判然としていない。今後は、このタグ値の予測、およびこれを用いた追加データへの適用手法の探求を行う予定である。

Causes of Carryover

本年度は年初から新型コロナウイルス感染症(COVID-19)が流行し、年度末にかけて、国際、国内を問わず、多くの学会が現地での開催の断念を余儀なくされた。これにより、予定していた国際会議への現地参加や国内の出張が取りやめとなったことにより、旅費として予定していた予算が余ることとなった。
また、研究においてGPUを使用するに辺り、GPUを組み込んだサーバーかTSUBAME、ABCIのようなクラウドサービスのポイント購入を行うことを考えている。GPUサーバーが手元にある場合、実験の取り回しは容易になると考えられるが、一方で、高性能なGPUを大量に用意することが難しい。また、廉価なGPUは計算エラーの訂正機能がないため、最終的な学習結果が高価なものと大きく異なる、ということが実験から明らかになっている。このため、GPUサーバーとクラウドサービスのどちらを選択するか、熟慮が必要となっている。

  • Research Products

    (1 results)

All 2019

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Positional Encoding to Control Output Sequence Length2019

    • Author(s)
      Sho Takase, Naoaki Okazaki
    • Organizer
      North American Chapter of the Association for Computational Linguistics
    • Int'l Joint Research

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi