研究領域 | 人工知能と脳科学の対照と融合 |
研究課題/領域番号 |
16H06562
|
研究機関 | 東京大学 |
研究代表者 |
松尾 豊 東京大学, 大学院工学系研究科(工学部), 特任准教授 (30358014)
|
研究分担者 |
中山 浩太郎 東京大学, 大学院工学系研究科(工学部), 学術支援専門職員 (00512097)
PRENDINGER HELMU 国立情報学研究所, コンテンツ科学研究系, 教授 (40390596)
|
研究期間 (年度) |
2016-06-30 – 2021-03-31
|
キーワード | 深層学習 / 深層生成モデル / 世界モデル / プランニング |
研究実績の概要 |
(i)記号処理を組み込んだDeep Q Networkの構成、ならびに、(ii) 文章からの画像の生成モデルを用いた、画像空間での演算処理の両方の基礎技術となるのが、世界モデルの構築である。2018年には、DeepMindによるGenerative Query Networkをはじめ、世界モデルに関する研究が多く出され、大きな技術的な進展があった。本研究でも、世界モデルに関する研究を中心に行った。 Generative Query Network (GQN) [Eslami 18] は,画像と視点座標という2 つのセンサー情報のみから環境に関する抽象表現(シーン表現) を獲得し,未知の視点座標からの観測画像を予測する深層生成モデルである。しかし,GQN は学習にかかる時間的・計算リソース的なコストが大きく,また結果がハイパーパラメータに強く依存するため学習が安定しないという課題がある.また,確率モデルとしての検証が不十分であるために,モデルアーキテクチャの解釈性が低く,発展研究の妨げとなっている. そこで、これらの課題を解決するため,GQN の確率モデルをメタ学習のフレームワークを用いて定式化し,それに基づいて,学習のコストと不安定性を改善する手法を構築した。また、評価実験を行い、Shepard Metzler データセットを用いてその有効性を検証した。この研究をまとめ、国際会議等に投稿準備中である。 その他、深層生成モデルを用いた人物画像の変換(服の着せ替え)等の研究も行った。本質的には、世界モデルと同様に、いかに低次元で現象をモデル化するかという問題になる。論文の投稿を行い、論文誌に採録された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
テーマ(i)(ii)に関して、技術の進展が早いが、当初予定通り、VAEを用い深層生成モデルによるプランニングおよび意味理解という方向に向けて、着実に進んでいる。2018年には世界モデルで大きな技術進展があったので、それにあわせて世界モデルの構築に柔軟に重点を移しながら進めている。
|
今後の研究の推進方策 |
現在のGQNは、シミュレータ環境のみでの実験が主であるが、これを実環境のデータセットを用いて検証していくことが考えられる。また、GQNをベースにプランニングに発展させていく技術を構築する。そのために、世界モデルに関するロバスト性の追求等の課題を解決しながら進める。 テーマ(ii)の言語との関連に関しては、GQNをマルチモーダルに拡張することで、言語情報とのアラインメントを行う手法を構築する。 いずれも、早い段階での国際会議への投稿、および本研究のまとめとしての論文誌への投稿を積極的に進めていく予定である。
|