A study on shared representation learning considering the uncertainty of each modality
Project/Area Number |
19K21527
|
Project/Area Number (Other) |
18H06458 (2018)
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund (2019) Single-year Grants (2018) |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
Suzuki Masahiro 東京大学, 大学院工学系研究科(工学部), 特任研究員 (30823885)
|
Project Period (FY) |
2018-08-24 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2018: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 深層学習 / 共有表現学習 / マルチモーダル学習 / 深層生成モデル |
Outline of Research at the Start |
深層学習の飛躍的発展によって、画像や音声、文書といった異なる種類の情報(モダリティ)を統合して学習するマルチモーダル学習の研究が数多く行われるようになっている。マルチモーダル学習は、異なるモダリティを統合した共有表現の学習が重要となる。しかし異なるモダリティ間で1対1の決定論的な対応関係を結べないような場合(例えば1つのタグに対応する画像は無数にある)、従来の決定論的な学習方法では適切な共有表現を獲得できない。本研究では、申請者らが開発した深層生成モデルによる手法に基づき、各モダリティの不確実性を考慮することで、複数のモダリティ情報を統合した共有表現を適切に学習する手法を確立する。
|
Outline of Final Research Achievements |
In this research, we addressed how to integrate several different types of information (i.e., different modalities), such as images, documents, and sounds. Previous studies did not take into account the differences in uncertainty across modalities and therefore integrated them deterministically. In this study, we proposed the probabilistic integration of different modalities based on a framework called deep generative models. We then showed that this approach is effective in multiple multimodal learning problem settings. In addition, we developed a new library to simplify the implementation of complex deep generative models containing multimodal information relationships.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究で提案する異なるモダリティの統合の枠組みは,今回扱ったデータや問題設定によらず,様々な領域に応用できると考えている.それは,この統合方法では深層生成モデルを用いてるため,モダリティの不確実性の違いのみに着目しており,モダリティの入力空間の次元数には依存しないからである.また,今回開発した深層生成モデルライブラリは,マルチモーダル学習のモデルに限らず,様々な深層生成モデルの実装に利用することができる.
|
Report
(3 results)
Research Products
(11 results)