研究実績の概要 |
1.2020年度の成果である[Chen+, AAAI'21]を拡張し、マルチメディアから時間的なダイナミクスを内包する知識グラフを抽出する手法を開発した。まず、画像時系列から物体・イベントなどのコンセプトを抽出し、その時空間的な共起や遷移関係をグラフ構造の形で表現する。さらに、ここへ外部の大規模知識グラフ(ConceptNet)を接続し、トップダウンな常識的知識を加えた広範な知識グラフを構築することができる。具体的な応用タスクとして、与えられた画像時系列の未来の状況を予測して文章で表す予知キャプショニングを提案し、これを実現する手法を開発した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2023へ採択された。 2.辞書中のテキストデータ(Wiktionary)から特徴抽出を行った単語概念と画像領域特徴をアラインメントし、共通の埋め込み空間を学習する手法を提案した。その具体的な応用として、画像中の未知物体に対し埋め込み空間上の最近傍の単語を検索することで、ゼロショットの画像キャプショニングを高い精度で実現できることを示した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2022で発表された。 3.2の手法では、画像特徴とテキスト特徴のアラインメントは小規模なキャプショニングデータセットで行われており、ゼロショット認識のための外部情報リソースはあくまでテキスト特徴のみで表現されていた。そのため、より画像と親和性が高く汎用的な情報リソースを得ることを目的とし、辞書中のテキストデータに加え画像情報を用いた学習によって外部知識自体をマルチモーダルな空間上で表現するように手法の拡張を行った。このようにして得られる埋め込み空間は、ゼロショット認識の改善はもちろん、概念が為す知識グラフを構築する上で一般的に有効であり、幅広い応用につながる基盤を為すと期待できる。
|