2020 年度実績報告書

モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発

研究課題

研究課題/領域番号	20J11448
研究機関	東京大学
研究代表者	阿久澤圭東京大学, 工学系研究科, 特別研究員(DC2)
研究期間 (年度)	2020-04-24 – 2022-03-31
キーワード	深層学習 / 強化学習 / 生成モデル / 深層系列モデル / 系列モデル / 自然言語処理
研究実績の概要	本研究は過去の観測系列を圧縮して大域的な表現を推論することができる深層系列生成モデルの開発を行い，それをモデルベース強化学習に応用することを目指すものである．本年度は三つの研究課題に取り組んだ． (1)大域的な表現を推論可能な深層系列生成モデルの開発：昨年度から取り組んでいる研究を発展させ，深層系列生成モデルを学習する際に問題になる"posterior collaspse"の問題を，条件付き相互情報量の最大化によって緩和するような正則化手法を提案した．昨年度からの差分としては，提案手法が生成物（画像，音声）の大域特徴（物体の構造，声質）を操作することに優れていることを示す，新たな実験を加えるなどした．国内学会での発表を行い，また論文誌へ投稿中である． (2) 深層生成モデルを用いた強化学習におけるサンプル効率性の向上：環境の遷移関数や報酬関数のパラメーターを大域的な表現として深層系列生成モデルを用いて推論することで，新しい環境に素早く適応する強化学習手法の提案を行った．具体的には，提案手法は，新しいタスクに素早く適応する能力を高めるメタ強化学習の研究領域で，かつ各々のタスクが部分観測マルコフ決定過程であるような一般的な場合に，提案手法が既存手法よりも高い性能を発揮する．この研究は国際会議へ採録された． (3) 視覚と言語の対応づけのための軌道の大域表現の半教師あり学習：エージェントの軌道（画像と行動の系列）が与えられたときに，その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行った．提案手法は，言語指示が軌道の大域的な表現とみなすことができるという性質を利用し，深層系列生成モデルを用いた大域表現学習を補助タスクとして用いた．この研究については国内学会への投稿を行い，来年度中に国際学会へ投稿することを目指している．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由主著での国際会議採択が1件，国内会議発表が1件，また共著での国際会議採択が1件，国際誌採択が1件あるなど，研究が進捗した．今年度採択されたものは深層生成モデル・表現学習・深層強化学習などを対象に扱ったものであり，当初の研究計画に沿って研究が進捗している．また、現在国際誌に投稿中のものが1件，国内学会に投稿中のものが1件ある．
今後の研究の推進方策	2020年度の研究で開発した系列モデルを利用した，言語指示に従うエージェントの構築に注力する予定である．自然言語による指示は，その場面ごとに人間が望むタスクをエージェントに実行させることが可能となるため，実世界でロボット等に指示をするためのインターフェースとして適している．そこで申請者は，エージェントの軌道(画像と行動の系列)が与えられたときに，その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行う予定である．提案手法は，言語指示が軌道の大域的な表現とみなすことができるという性質を利用し，深層系列生成モデルを用いた大域表現学習を補助タスクとして用いる．実験はシミュレータ上の環境で行う予定であり，GPUなどの計算リソースを必要とする．今年度中に国際会議・または論文誌で発表することを目指している.

研究成果

(4件)

すべて 2020

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (3件) (うち国際学会 2件)

[雑誌論文] Joint adversarial training of speech recognition and synthesis models for many-to-one voice conversion using phonetic posteriorgrams2020
- 著者名/発表者名
  Yuki Saito, Kei Akuzawa, and Kentaro Tachibana
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E103.D巻9号ページ: 1978-1987
- DOI
  10.1587/transinf.2019EDP7297
- 査読あり / オープンアクセス
[学会発表] Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective2020
- 著者名/発表者名
  Yusuke Iwasawa, Kei Akuzawa, Yutaka Matsuo.
- 学会等名
  In Proc. of the Twenty-Ninth International Joint Conference on Artificial Intelligence (IJCAI)
- 国際学会
[学会発表] Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-Reinforcement Learning.2020
- 著者名/発表者名
  Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo.
- 学会等名
  In Proc. of the Third Learning for Dynamics and Control (L4DC) Conference
- 国際学会
[学会発表] Posterior Collapseの情報識別可能性による解釈と条件付き相互情報量最大化を用いた対策2020
- 著者名/発表者名
  阿久澤圭，岩澤有祐，松尾豊
- 学会等名
  人工知能学会全国大会(第34回)

2020 年度 実績報告書

モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発

研究代表者

阿久澤 圭 東京大学, 工学系研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Joint adversarial training of speech recognition and synthesis models for many-to-one voice conversion using phonetic posteriorgrams2020

著者名/発表者名

雑誌名

DOI

[学会発表] Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective2020

著者名/発表者名

学会等名

[学会発表] Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-Reinforcement Learning.2020

著者名/発表者名

学会等名

[学会発表] Posterior Collapseの情報識別可能性による解釈と条件付き相互情報量最大化を用いた対策2020

著者名/発表者名

学会等名

2020 年度実績報告書

阿久澤圭東京大学, 工学系研究科, 特別研究員(DC2)