研究課題/領域番号 |
19H04166
|
研究機関 | 東京大学 |
研究代表者 |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / 画像認識 / シーングラフ / 知識獲得 / 知識グラフ / ストーリー生成 |
研究実績の概要 |
本研究では、画像・動画像等のマルチメディアに言語概念をグラウンディング(記号接地)させ、時空間的な共起関係を手掛かりにさまざまな概念間の関連性を推定し、グラフ構造を有するデータベース(知識グラフ)として獲得する新しいアプローチを提案する。本年度は、大きく分けて以下に示す二つの成果を得た。 まず、昨年度に開発した教師なし物体間関連性推定手法の拡張を行った。本手法は昨年度時点では、指定された二物体間の関連性を推定することしかできず、物体自体は明示的に与える必要があった。本年度はこれを物体検出手法と統合することで、画像から自動的に複数の物体間関連性情報を抽出できるように拡張した。これにより、個々の物体を手掛かりとして物体間関連性情報を組み合わせることで、画像のシーングラフを出力することが可能となった。さらに、学習の枠組みとして教師なし学習のみならず、半教師付き学習も扱えるように手法の一般化を行った。特に、半教師付き学習では、ラベル付きデータのみを用いた教師付き学習を上回る性能となり、ラベルなしデータを活用できる提案手法の枠組みが有効に働くことが示された。提案手法の一部を、国際会議IEEE ICIP 2020において発表した。 また、自然言語処理において知識グラフを活用するダウンストリームタスクとして、視覚的ストーリー生成(visual story telling)の手法開発を行った。本手法は、視覚情報を足掛かりにConceptNet等の知識グラフ上の探索を行うことにより、単に画像の記述にとどまらない多様なストーリーを生成することが可能である。本手法およびタスクは、本研究において開発されるマルチメディア知識DBを活用・評価するための有力なテストベッドとなることが期待される。本手法の内容は、人工知能のトップ国際会議であるAAAI 2021において発表された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
画像データからの知識獲得において要となるシーングラフ生成手法は完成し、半教師付き学習の枠組みにより、教師データに存在しない物体間関連性を含むさまざまな関連性情報を出力することが可能となった。また、ベースとなる畳み込みニューラルネットワークの改良技術も複数開発し、ECCVやIJCNNなどの有力国際会議に採択されるなど良好な成果を得た。一方で、最終的に目的としている常識的知識獲得においては、BERTやGPT-3に代表される事前学習済言語モデルが近年驚異的な性能を発揮するようになったことから、当初計画よりも慎重な調査と戦略が必要である。 知識グラフの活用と評価の方法に関しては、視覚的ストーリー生成を題材として良いタスク設定と手法が提案でき、プロジェクト全体の出口設計ができたと考える。本手法はトップ国際会議であるAAAIに採択されるなど、その先見性について高い評価を得ている。 以上まとめると、知識獲得アルゴリズムについては近年の技術革新に対応しながら検討を続ける必要があるが、基盤となる画像認識技術や知識の活用方法については完成された成果が得られ、全体として十分な進捗を得たと考える。
|
今後の研究の推進方策 |
まず、個々の画像から得られるシーングラフを大量に集積し、抽象的な知識データベースへと集約する技術の開発に注力する。この際、マルチモーダルなTransformerによる事前学習済モデルから陰に得られる知識と連携させることで、広範かつ高精度な知識グラフを構築することを目指す。また、得られた知識グラフを定性的に評価すると共に、既に開発したストーリー生成手法へ接続することで定量的な評価を行う。
|