2018 Fiscal Year Annual Research Report
Study on the improvement of the forecast due to the fusion of deep learning and symbol processing
Project Area | Correspondence and Fusion of Artificial Intelligence and Brain Science |
Project/Area Number |
16H06562
|
Research Institution | The University of Tokyo |
Principal Investigator |
松尾 豊 東京大学, 大学院工学系研究科(工学部), 特任准教授 (30358014)
|
Co-Investigator(Kenkyū-buntansha) |
中山 浩太郎 東京大学, 大学院工学系研究科(工学部), 学術支援専門職員 (00512097)
PRENDINGER HELMU 国立情報学研究所, コンテンツ科学研究系, 教授 (40390596)
|
Project Period (FY) |
2016-06-30 – 2021-03-31
|
Keywords | 深層学習 / 深層生成モデル / 世界モデル / プランニング |
Outline of Annual Research Achievements |
(i)記号処理を組み込んだDeep Q Networkの構成、ならびに、(ii) 文章からの画像の生成モデルを用いた、画像空間での演算処理の両方の基礎技術となるのが、世界モデルの構築である。2018年には、DeepMindによるGenerative Query Networkをはじめ、世界モデルに関する研究が多く出され、大きな技術的な進展があった。本研究でも、世界モデルに関する研究を中心に行った。 Generative Query Network (GQN) [Eslami 18] は,画像と視点座標という2 つのセンサー情報のみから環境に関する抽象表現(シーン表現) を獲得し,未知の視点座標からの観測画像を予測する深層生成モデルである。しかし,GQN は学習にかかる時間的・計算リソース的なコストが大きく,また結果がハイパーパラメータに強く依存するため学習が安定しないという課題がある.また,確率モデルとしての検証が不十分であるために,モデルアーキテクチャの解釈性が低く,発展研究の妨げとなっている. そこで、これらの課題を解決するため,GQN の確率モデルをメタ学習のフレームワークを用いて定式化し,それに基づいて,学習のコストと不安定性を改善する手法を構築した。また、評価実験を行い、Shepard Metzler データセットを用いてその有効性を検証した。この研究をまとめ、国際会議等に投稿準備中である。 その他、深層生成モデルを用いた人物画像の変換(服の着せ替え)等の研究も行った。本質的には、世界モデルと同様に、いかに低次元で現象をモデル化するかという問題になる。論文の投稿を行い、論文誌に採録された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
テーマ(i)(ii)に関して、技術の進展が早いが、当初予定通り、VAEを用い深層生成モデルによるプランニングおよび意味理解という方向に向けて、着実に進んでいる。2018年には世界モデルで大きな技術進展があったので、それにあわせて世界モデルの構築に柔軟に重点を移しながら進めている。
|
Strategy for Future Research Activity |
現在のGQNは、シミュレータ環境のみでの実験が主であるが、これを実環境のデータセットを用いて検証していくことが考えられる。また、GQNをベースにプランニングに発展させていく技術を構築する。そのために、世界モデルに関するロバスト性の追求等の課題を解決しながら進める。 テーマ(ii)の言語との関連に関しては、GQNをマルチモーダルに拡張することで、言語情報とのアラインメントを行う手法を構築する。 いずれも、早い段階での国際会議への投稿、および本研究のまとめとしての論文誌への投稿を積極的に進めていく予定である。
|
Research Products
(2 results)