研究課題/領域番号 |
22K17947
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
ヴォ ミンデュク 東京大学, 大学院情報理工学系研究科, 特任助教 (40939906)
|
研究期間 (年度) |
2022-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | Vision and language / Novel object captioning / GANs / External knowledge / Bias mitigation / Story evaluation / Dataset / Conditional GANs / Long-tail data |
研究開始時の研究の概要 |
1) Creating a dataset for our study because existing datasets are insufficient. 2) Constructing vision-language cross-modal by learning cross-modal similarity. 3) Learning data augmentation using vision-language cross-modal. 4) Incorporating the vision-language cross-modal into the conditional GANs.
|
研究成果の概要 |
本研究は、視覚と言語の空間間におけるクロスモダリティに関する知識を得ることを目的としています。私たちは、物体の視覚的外観と対応する言語記述を含む知識ベースを構築しました。収集された知識ベースが、見たことのない物体の記述能力を向上させ、未来を予測する能力を強化することを実証しました。
また、限られたデータセットやオープンセットデータセットの下での生成的敵対的ネットワーク(GAN)のトレーニングおよびGANインバージョンの新しいトレーニングパラダイムを探求しました。
|
研究成果の学術的意義や社会的意義 |
We shows the efficacy of external knowledge base, helping AI in understanding up-to-date object knowledge and being able to predict the future given a sequence of sparsely temporally-ordered images. We showed the ability of generative AI when it is trained using limited number of training data.
|