2020 Fiscal Year Annual Research Report
モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発
Project/Area Number |
20J11448
|
Research Institution | The University of Tokyo |
Principal Investigator |
阿久澤 圭 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Keywords | 深層学習 / 強化学習 / 生成モデル / 深層系列モデル / 系列モデル / 自然言語処理 |
Outline of Annual Research Achievements |
本研究は過去の観測系列を圧縮して大域的な表現を推論することができる深層系列生成モデルの開発を行い,それをモデルベース強化学習に応用することを目指すものである.本年度は三つの研究課題に取り組んだ. (1)大域的な表現を推論可能な深層系列生成モデルの開発:昨年度から取り組んでいる研究を発展させ,深層系列生成モデルを学習する際に問題になる"posterior collaspse"の問題を,条件付き相互情報量の最大化によって緩和するような正則化手法を提案した.昨年度からの差分としては,提案手法が生成物(画像,音声)の大域特徴(物体の構造,声質)を操作することに優れていることを示す,新たな実験を加えるなどした.国内学会での発表を行い,また論文誌へ投稿中である. (2) 深層生成モデルを用いた強化学習におけるサンプル効率性の向上:環境の遷移関数や報酬関数のパラメーターを大域的な表現として深層系列生成モデルを用いて推論することで,新しい環境に素早く適応する強化学習手法の提案を行った.具体的には,提案手法は,新しいタスクに素早く適応する能力を高めるメタ強化学習の研究領域で,かつ各々のタスクが部分観測マルコフ決定過程であるような一般的な場合に,提案手法が既存手法よりも高い性能を発揮する.この研究は国際会議へ採録された. (3) 視覚と言語の対応づけのための 軌道の大域表現の半教師あり学習:エージェントの軌道(画像と行動の系列)が与えられたときに,その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行った.提案手法は,言語指示が軌道の大域的な表現とみなすことができるという性質を利用し,深層系列生成モデルを用いた大域表現学習を補助タスクとして用いた.この研究については国内学会への投稿を行い,来年度中に国際学会へ投稿することを目指している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
主著での国際会議採択が1件,国内会議発表が1件,また共著での国際会議採択が1件,国際誌採択が1件あるなど,研究が進捗した.今年度採択されたものは深層生成モデル・表現学習・深層強化学習などを対象に扱ったものであり,当初の研究計画に沿って研究が進捗している.また、現在国際誌に投稿中のものが1件,国内学会に投稿中のものが1件ある.
|
Strategy for Future Research Activity |
2020年度の研究で開発した系列モデルを利用した,言語指示に従うエージェントの構築に注力する予定である.自然言語による指示は,その場面ごとに人間が望むタスクをエージェントに実行させることが可能となるため,実世界でロボッ ト等に指示をするためのインターフェースとして適している.そこで申請者は,エージェントの軌道(画像と行動の系列)が与えられたときに,その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行う予定である.提案手法は,言語指示が軌道の大域的な表現とみなすことができるという性質を利用し,深層系列生成モデルを用いた大域表現学習を補助タスクとして用いる.実験はシミュレータ上の環境で行う予定であり,GPUなどの計算リソースを必要とする.今年度中に国際会議・または論文誌で発表することを目指している.
|