モデルベース強化学習のための変分自己符号化器を用いた系列モデルの開発
Project/Area Number |
20J11448
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
阿久澤 圭 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2020: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 深層学習 / 強化学習 / 生成モデル / 深層系列モデル / 系列モデル / 自然言語処理 / 音声信号処理 |
Outline of Research at the Start |
本研究では,モデルベース強化学習のための変分自己符号化器(Variational Autoencoder, VAE)を用いた系列モデルの開発を行う.具体的には,系列データが持つ現実の構造である階層性をモデリングすることができるVAEを用いた系列モデルを開発すること,そしてこの技術を用いて動画などの高次元データから適切な階層的表現を抽出しモデルベース強化学習に用いることで,環境変化にロバストな自律的行動を可能とする手法を開発することを目的としている.
|
Outline of Annual Research Achievements |
本研究は過去の観測系列を圧縮して大域的な表現を推論することができる深層系列生成モデルの開発を行い,それをモデルベース強化学習に応用することを目指すものである.本年度は,昨年度に投稿または採録された二つの研究について学会誌への採録や国際学会での発表を行うとともに,新たに二つの研究課題に取り組んだ(a, b). (a) 視覚と言語の対応づけのための 軌道の大域表現の半教師あり学習:昨年度から取り組んでいる内容について国内学会での発表を行うともに,それを発展させた研究について国際学会への投稿を行なった.研究内容としては,エージェントの軌道(画像と行動の系列)が与えられたときに,その軌道とそれを記述する言語指示の対応づけを学習する手法の開発を行うものである.提案手法は,言語指示が軌道の大域的な表現とみなすことができるという性質を利用し,深層系列生成モデルを用いた大域表現学習を補助タスクとして利用する.加えて,軌道と自然言語という二つのモダリティおよび系列長が異なるデータの潜在表現を学習するのに適した,新たなニューラルネットアーキテクチャを提案した. (b) 階層型深層生成モデルを利用した音声変換:本年度から新たに取り組んだ研究が国際学会に採択され,また同国際学会で発表を行なった.研究(a)に示唆されるように,系列の大域的な表現はモデルベース強化学習において役立つ可能性がある.本研究は,系列の大域的な表現の学習を改善するための新たなアプローチの検討と位置付けることができる.本研究はRate-Distortion分析により,表現が特定の情報に対して不変でありかつ生成モデルとしての尤度を高く保つためにはモデルの表現力が十分大きい必要があることを確認した.そして音声変換のタスクで実験を行い,高いモデル表現力を持つ階層型深層生成モデルは表現の不変性と尤度を高い水準で両立できることを示した.
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(9 results)