本研究課題では,画像や文書,音声などの複数の異なる種類の情報(マルチモーダル情報)を統合する方法について取り組む.従来の研究では,モダリティごとの不確実性の違いを考慮しておらず,決定論的に統合していた.本研究では,深層生成モデルと呼ばれる枠組みに基づき,異なるモダリティを確率的に統合することを提案し,複数のマルチモーダル学習の問題設定において,このアプローチが有効であることを示した.また,マルチモーダル情報の関係を含んだ複雑な深層生成モデルを簡潔に実装するため,新たにライブラリを開発した. これらの成果は国内論文誌や国際会議などで発表した.
|