2022 Fiscal Year Annual Research Report
Building World Knowledge by Grounding Language and Multimedia
Project/Area Number |
19H04166
|
Research Institution | The University of Tokyo |
Principal Investigator |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 自然言語処理 / 画像認識 / 知識グラフ / ゼロショット認識 / 未来予測 / マルチモーダル / 知識獲得 |
Outline of Annual Research Achievements |
1.2020年度の成果である[Chen+, AAAI'21]を拡張し、マルチメディアから時間的なダイナミクスを内包する知識グラフを抽出する手法を開発した。まず、画像時系列から物体・イベントなどのコンセプトを抽出し、その時空間的な共起や遷移関係をグラフ構造の形で表現する。さらに、ここへ外部の大規模知識グラフ(ConceptNet)を接続し、トップダウンな常識的知識を加えた広範な知識グラフを構築することができる。具体的な応用タスクとして、与えられた画像時系列の未来の状況を予測して文章で表す予知キャプショニングを提案し、これを実現する手法を開発した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2023へ採択された。 2.辞書中のテキストデータ(Wiktionary)から特徴抽出を行った単語概念と画像領域特徴をアラインメントし、共通の埋め込み空間を学習する手法を提案した。その具体的な応用として、画像中の未知物体に対し埋め込み空間上の最近傍の単語を検索することで、ゼロショットの画像キャプショニングを高い精度で実現できることを示した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2022で発表された。 3.2の手法では、画像特徴とテキスト特徴のアラインメントは小規模なキャプショニングデータセットで行われており、ゼロショット認識のための外部情報リソースはあくまでテキスト特徴のみで表現されていた。そのため、より画像と親和性が高く汎用的な情報リソースを得ることを目的とし、辞書中のテキストデータに加え画像情報を用いた学習によって外部知識自体をマルチモーダルな空間上で表現するように手法の拡張を行った。このようにして得られる埋め込み空間は、ゼロショット認識の改善はもちろん、概念が為す知識グラフを構築する上で一般的に有効であり、幅広い応用につながる基盤を為すと期待できる。
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|
Research Products
(27 results)
-
-
-
-
-
-
-
-
-
[Journal Article] Neural Networks in a Product of Hyperbolic Spaces2022
Author(s)
Jun Takeuchi, Noriki Nishida, Hideki Nakayama
-
Journal Title
Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Student Research Workshop
Volume: -
Pages: 211-221
Peer Reviewed / Open Access
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-