研究課題/領域番号 |
19K11987
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
ュ イ 国立情報学研究所, コンテンツ科学研究系, 特任助教 (00754681)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | Cross-Modal Correlation / Cross-Modal Embedding / cross-modal embedding / zero-shot / cross-modal retrieval |
研究開始時の研究の概要 |
Lots of efforts have been devoted to learning cross-modal correlation between data in different modalities. But existing cross-modal embedding models usually do not work well when the query or database include new data with unknown categories. To solve this problem, this project aims to develop zero-shot cross-modal embedding learning algorithms from the following aspects: (i) compute modality-invariant embedding, (ii) predict unknown categories based on external knowledge describing their correlation from known categories, (iii) apply adversarial learning to enhance system performance.
|
研究成果の概要 |
視・聴覚クロスモーダル学習のために、i)オーディオデータとビジュアルデータを2つの異なるスペースに別々にエンコードし、さらに正準相関分析によって特徴量を共通のサブスペースにマッピングする、ii)確率的モデリング手法を利用して、データにおけるノイズや欠落を処理する、新しい変分オートエンコーダー(VAE)アーキテクチャを提案・評価した。
|
研究成果の学術的意義や社会的意義 |
The distribution of data in different modalities are inconsistent, which makes it difficult to directly measure the similarity across different modalities. The proposed technique of cross-modal embedding learning can help improve the performance of cross-modal retrieval, recognition, and generation.
|