研究課題/領域番号 |
19H04166
|
研究機関 | 東京大学 |
研究代表者 |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / 画像認識 / グラウンディング / 知識グラフ / ゼロショット認識 |
研究実績の概要 |
本研究では、画像・動画像等のマルチメディアに言語概念をグラウンディング(記号接地)させ、時空間的な共起関係を手掛かりにさまざまな概念間の関連性を推定し、グラフ構造を有するデータベース(知識グラフ)として獲得する新しいアプローチを提案する。本年度は、大きく分けて以下に示す三つの成果を得た。
1.BERTにより辞書データ(Wiktionary)から特徴抽出を行った単語概念と画像領域特徴をアラインメントし、共通の埋め込み空間を学習する手法を提案した。これにより、事前学習済み言語モデルの表現能力を活用しながら、画像概念と言語概念のグラウンディングを行ったマルチモーダル埋め込み空間を得ることができる。この空間では、Transformerの注意機構により、画像領域の視覚的特徴のみならず複数領域の共起関係や位置情報なども考慮された埋め込みが行われていることが重要であり、この空間上での距離を基準として概念が為すグラフを構築することができる。その具体的な応用として、画像中の未知物体に対しグラフ上の最近傍の単語を検索することで、ゼロショットの画像キャプショニングを高い精度で実現できることを示した。本研究はコンピュータビジョンの最難関国際会議であるCVPRへ採択された。 2.自然言語処理におけるストーリー生成タスクを題材とし、概念グラフ上の探索を通じて論理性を保ちながら多様性のあるテキスト生成を行う手法を開発した。ここで提案したグラフ探索法は汎用性の高いものであり、ストーリー生成に限らずさまざまなダウンストリームタスクで、知識グラフを活用するための重要な基礎技術となる。 3.グラウンディング自体の性能向上を行うため、基礎的な画像認識の手法開発にも引き続き取り組み、訓練時に想定しない入力ノイズに対して認識の頑健性を高める手法を複数開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究計画の立案時から周辺状況が変化し、BERTやGPT-3に代表される事前学習済み言語モデルが外部知識(常識的知識)のリソースとして驚異的な性能を発揮するようになったため、これにマルチメディアから得られる知識をどのように組み込むかが本年度の研究の焦点となった。この問いに対し、研究実績1で述べたグラウンディング手法は、事前学習済み言語モデルの表現能力や辞書情報を活用しながら画像のセマンティクスに沿うように概念の埋め込み空間を学習するものであり、よい着地点になっていると考える。成果発表の面でも、コンピュータビジョンの最難関国際会議であるCVPRへ採択されるなど既に高い評価を得ており、本研究計画の要となる技術について十分な成果が得られたものと考える。 もう一つの重要項目である知識グラフの構築と活用法に関しても、研究実績2で述べた通り着実な成果が得られている。このように、研究計画を実現するにあたり必要となる技術の開発はほぼ完了している。 この他、研究計画全体を下支えする基礎技術である画像認識や単語埋め込み等に関しても多くの成果発表を行っており、全体として十分な進捗が得られていると考える。
|
今後の研究の推進方策 |
残す主な課題は、研究実績1で述べたマルチモーダル埋め込み手法と、研究実績2で述べたグラフ構築・活用法の統合実装と評価である。既に取り組んでいるゼロショット画像キャプショニングや画像ストーリー生成を評価タスクとし、埋め込み空間上で構築したグラフの探索により、出力の精度や多様性の向上を実現することを目指す。 また、現状の提案手法は非言語のマルチメディア情報として静止画しか利用できていないため、時系列Transformerを用いて動画像へ対応させることで、画像概念の時空間的な共起関係を扱えるように拡張する。
|