2023 Fiscal Year Annual Research Report
Object State Recognition via Multi-Modal Analysis of Videos and Video Caption Sequences
Project/Area Number |
22K21296
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
八木 拓真 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)
|
Project Period (FY) |
2022-08-31 – 2024-03-31
|
Keywords | 物体状態認識 / 大規模言語モデル / 映像字幕からの学習 |
Outline of Annual Research Achievements |
2022年度に引き続き大規模言語モデルを用いた状態の自動列挙による状態認識手法の開発(テーマC)を行い、字幕中に豊富に含まれる行動情報をキーとして大規模言語モデルから特定の物体状態(例:an egg is boiled, a shirt is dry) を抽出し映像から物体状態の出現区間を検出するモデルの開発を行った。 調理動画など特定の作業を説明・実況しているインターネット映像中に含まれる音声から自動抽出した字幕情報には作業中に何をしたか(行動)の情報が多く含まれ、完璧ではないもののおおよその行動出現タイミングが推定できる。一方物体状態に関する説明はあまり明示的に語られないため、物体状態認識器の直接の学習は困難であった。そこで、行動と状態との関係性に関する知識を持っていることが示唆された大規模言語モデルを用いて、ある時刻において行動情報の系列から明示的に各状態が存在するかどうかを推論することで物体状態認識器のための時刻付きの疑似ラベルが生成できることを見出し、字幕情報から物体状態ラベルを推論するフレームワークを提案した。また、新たに評価用データセットとして6種類の物体、約60種類の物体状態の発生時刻ラベルを付与したものを作成し、提案フレームワークの有効性の評価を行った。 実験の結果、提案手法によって訓練されたモデルは画像・動画認識それぞれでもちいられる強力な基盤モデルと比較して顕著に高い性能を示し、比較的収集が容易な字幕情報からの物体状態認識モデルの構築に成功した。 計画当初は物体状態認識にあたって専用のアノテーションが必要であるという前提条件を置いていたが、大規模言語モデルの活用によりアノテーションを回避できることがわかり、最終的により柔軟で汎用性のある枠組みを実現した。
|