2021 年度研究成果報告書

映像の時空間的関係を知覚可能な検索エンジンの構築

研究課題

PDF

研究課題/領域番号	19K12028
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	近畿大学
研究代表者	白浜公章近畿大学, 理工学部, 准教授 (30467675)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	映像検索 / 物体の時空間関係 / グラフたたみ込み / 記憶伝達 / 強化学習 / TRECVID
研究成果の概要	本研究では、1. 物体の時空間的関係を考慮した映像検索、2. フレーム間の意味的な連続性に基づく映像の時間的特徴の抽出、3. 映像に対する人間の記憶伝達メカニズムを模倣するモデルの学習という3つのテーマに取り組んだ。特に、3つ目に関して、記憶を有限の外部ストレージと見立てて、映像全体の内容を最も適切に理解するために、各フレームをどれだけ記憶すべきかを判別する強化学習手法を開発した。加えて、この手法を、大量のアイテムが格納されたデータベースから、統計的に特徴的なパターンを構成するためにどのアイテムを追加・削除すべきか判別するように拡張した手法が国際ジャーナルIEEE Accessに掲載された。
自由記述の分野	マルチメディア情報処理
研究成果の学術的意義や社会的意義	深層学習の導入によって、画像認識性能は大幅に向上したが、映像認識では、それほどの性能向上が得られていない理由として、画像認識で用いられているたたみ込みニューラルネットワーク（CNN）の演算が人間の知覚メカニズムとよく合致している一方で、時間を伴う映像に対しては、長短期記憶（LSTM）などの既存モデルの演算が、人間の時間知覚メカニズムに合致していない点が挙げられる。この問題に対して、行動心理学に基づいて、人間の意思決定をモデル化するために有用な強化学習という手法を用いて、映像の内容を適切に理解するための記憶伝達メカニズムを模倣するモデルを学習し、その有効性を実験的に示した点に学術的意義がある。