2020 Fiscal Year Annual Research Report

モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発

Research Project

Project/Area Number	20J11448
Research Institution	The University of Tokyo
Principal Investigator	阿久澤圭東京大学, 工学系研究科, 特別研究員(DC2)
Project Period (FY)	2020-04-24 – 2022-03-31
Keywords	深層学習 / 強化学習 / 生成モデル / 深層系列モデル / 系列モデル / 自然言語処理
Outline of Annual Research Achievements	本研究は過去の観測系列を圧縮して大域的な表現を推論することができる深層系列生成モデルの開発を行い，それをモデルベース強化学習に応用することを目指すものである．本年度は三つの研究課題に取り組んだ． (1)大域的な表現を推論可能な深層系列生成モデルの開発：昨年度から取り組んでいる研究を発展させ，深層系列生成モデルを学習する際に問題になる"posterior collaspse"の問題を，条件付き相互情報量の最大化によって緩和するような正則化手法を提案した．昨年度からの差分としては，提案手法が生成物（画像，音声）の大域特徴（物体の構造，声質）を操作することに優れていることを示す，新たな実験を加えるなどした．国内学会での発表を行い，また論文誌へ投稿中である． (2) 深層生成モデルを用いた強化学習におけるサンプル効率性の向上：環境の遷移関数や報酬関数のパラメーターを大域的な表現として深層系列生成モデルを用いて推論することで，新しい環境に素早く適応する強化学習手法の提案を行った．具体的には，提案手法は，新しいタスクに素早く適応する能力を高めるメタ強化学習の研究領域で，かつ各々のタスクが部分観測マルコフ決定過程であるような一般的な場合に，提案手法が既存手法よりも高い性能を発揮する．この研究は国際会議へ採録された． (3) 視覚と言語の対応づけのための軌道の大域表現の半教師あり学習：エージェントの軌道（画像と行動の系列）が与えられたときに，その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行った．提案手法は，言語指示が軌道の大域的な表現とみなすことができるという性質を利用し，深層系列生成モデルを用いた大域表現学習を補助タスクとして用いた．この研究については国内学会への投稿を行い，来年度中に国際学会へ投稿することを目指している．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 主著での国際会議採択が1件，国内会議発表が1件，また共著での国際会議採択が1件，国際誌採択が1件あるなど，研究が進捗した．今年度採択されたものは深層生成モデル・表現学習・深層強化学習などを対象に扱ったものであり，当初の研究計画に沿って研究が進捗している．また、現在国際誌に投稿中のものが1件，国内学会に投稿中のものが1件ある．
Strategy for Future Research Activity	2020年度の研究で開発した系列モデルを利用した，言語指示に従うエージェントの構築に注力する予定である．自然言語による指示は，その場面ごとに人間が望むタスクをエージェントに実行させることが可能となるため，実世界でロボット等に指示をするためのインターフェースとして適している．そこで申請者は，エージェントの軌道(画像と行動の系列)が与えられたときに，その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行う予定である．提案手法は，言語指示が軌道の大域的な表現とみなすことができるという性質を利用し，深層系列生成モデルを用いた大域表現学習を補助タスクとして用いる．実験はシミュレータ上の環境で行う予定であり，GPUなどの計算リソースを必要とする．今年度中に国際会議・または論文誌で発表することを目指している.

Research Products
(4 results)

All 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results)

[Journal Article] Joint adversarial training of speech recognition and synthesis models for many-to-one voice conversion using phonetic posteriorgrams2020
- Author(s)
  Yuki Saito, Kei Akuzawa, and Kentaro Tachibana
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E103.D巻9号 Pages: 1978-1987
- DOI
  10.1587/transinf.2019EDP7297
- Peer Reviewed / Open Access
[Presentation] Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective2020
- Author(s)
  Yusuke Iwasawa, Kei Akuzawa, Yutaka Matsuo.
- Organizer
  In Proc. of the Twenty-Ninth International Joint Conference on Artificial Intelligence (IJCAI)
- Int'l Joint Research
[Presentation] Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-Reinforcement Learning.2020
- Author(s)
  Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo.
- Organizer
  In Proc. of the Third Learning for Dynamics and Control (L4DC) Conference
- Int'l Joint Research
[Presentation] Posterior Collapseの情報識別可能性による解釈と条件付き相互情報量最大化を用いた対策2020
- Author(s)
  阿久澤圭，岩澤有祐，松尾豊
- Organizer
  人工知能学会全国大会(第34回)

2020 Fiscal Year Annual Research Report

モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発

Principal Investigator

阿久澤 圭 東京大学, 工学系研究科, 特別研究員(DC2)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Joint adversarial training of speech recognition and synthesis models for many-to-one voice conversion using phonetic posteriorgrams2020

Author(s)

Journal Title

DOI

[Presentation] Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective2020

Author(s)

Organizer

[Presentation] Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-Reinforcement Learning.2020

Author(s)

Organizer

[Presentation] Posterior Collapseの情報識別可能性による解釈と条件付き相互情報量最大化を用いた対策2020

Author(s)

Organizer

阿久澤圭東京大学, 工学系研究科, 特別研究員(DC2)