本研究では,画像や文書,音声などの複数の異なる種類の情報(マルチモーダル情報)を統合する表現を獲得する共有表現学習(およびマルチモーダル学習)に取り組む. 2019年度は, 昨年に引き続き,様々なマルチモーダル情報を扱った研究や,それを実現するためのライブラリ開発を行った.画像の表現をラベル情報という別のモダリティを利用してうまく分離するように学習する研究や,与えられた服画像を利用して人物画像の服を着せ替える研究などを共著で行った.これらは国際学会のワークショップにて発表した.また,これまでの研究は2つのモダリティに限定していたが,確率的生成モデルに基づき,人間のように複数のモダリティを統合可能な大規模な認知アーキテクチャの枠組みを共著で提案した.この成果についてはNew Generation Computingに採録された. 上記の研究のいくつかは,本研究のサブ研究の一つとして開発した,深層生成モデルライブラリで実装したものである.このライブラリの開発成果については,2019年度人工知能学会全国大会で発表した他,ロボット分野の国際学会であるIROSワークショップの招待講演にて発表した. 研究機関全体を通して,深層生成モデルの枠組みによって,マルチモーダル情報を統合でき,さらにこのアプローチを様々な領域に適用可能であると示すことができた.またそれを行う過程で,深層生成モデルを実装するためのライブラリを開発し,その有効性を示すことができた.
|