研究課題/領域番号 |
22K21296
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立研究開発法人産業技術総合研究所 (2023) 東京大学 (2022) |
研究代表者 |
八木 拓真 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)
|
研究期間 (年度) |
2022-08-31 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 物体状態認識 / 大規模言語モデル / 映像字幕からの学習 / 状態記述キャプション / 視覚言語モデル |
研究開始時の研究の概要 |
動画像中の物体の状態およびその変化を明示的に説明したキャプション系列(状態記述キャプション)から物体単位での柔軟な状態認識を実現する。具体的には、物体状態変化を含む動画像に対して出現物体の位置・状態およびその変化をもたらした行動や現象を説明するキャプションを新たに付与し、対象物体および周辺の見えの変化と対応づける学習を行うことで物体単位での特徴表現を獲得する。本研究期間では、(a) 状態記述キャプションコーパスの構築 (b) 限られた教師情報からの状態変化領域の自動追跡手法の開発 (c) 物体単位での状態(変化)表現モデルの構築 の3項目に取り組む。
|
研究成果の概要 |
映像中に出現する物体の状態(例:卵が割れている、ゆでられている)を認識する計算モデルを開発した。物体状態の認識にあたっては映像と対応する物体状態に関する注釈が必要であるが、多様な物体状態の教師情報の収集はコストが高く現実的でない。そこで本研究では、インターネット映像中に含まれる説明文(実況)の情報に大規模言語モデル(LLM)を適用することで多様な物体状態に関する教師情報を自動で生成しモデルの学習を行う新たなフレームワークを提案した。
|
研究成果の学術的意義や社会的意義 |
従来人の行動やその周辺環境の理解にあたっては、人が何をしているか(行動)および何があるか(物体)の認識が主で、ある物体が人の行動の結果どのような状態になったかといったシーンの詳細に関する認識が十分に取り組まれていなかった。様々な物体状態を映像から自動で認識することで、例えばロボットが行動を意図した通りに実行できたかを実際に物体の状態が変化したかによって判定でき、より信頼性の高いタスク遂行が期待できる。また、LLMは任意の状態記述に対応できるため語彙の変更が容易で、ユーザの要求に合わせた認識結果を提供することも可能となる。
|