Building a Video Search Engine based on the Perception of Spatio-temporal Relations
Project/Area Number |
19K12028
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kindai University |
Principal Investigator |
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2019: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 映像検索 / 物体の時空間関係 / グラフたたみ込み / 記憶伝達 / 強化学習 / TRECVID / 物体の時空間的関係 / 大規模映像検索 / 時空間的関係 |
Outline of Research at the Start |
本研究では,映像中の時空間的関係に対する人間の知覚メカニズムをモデル化し,高次の意味に適合する映像を高精度に検索可能なシステムを開発する.具体的には,時空間的に近い物体の位置関係を反映したベクトルを抽出し検索を行う手法,フレーム間の意味的な連続性を考慮しながら情報(記憶)を伝達させて,映像をコンパクトなベクトルに圧縮し検索を行う手法,データから人間が無意識に行っている記憶伝達メカニズムを模倣する関数を学習する手法の開発に取り組む.
|
Outline of Final Research Achievements |
This project addresses three main topics, 1) Video retrieval by considering spatio-temporal relations among objects, 2) Extraction of temporal features in a video by considering the continuities of semantic contents and 3) Learning a model that captures human memory mechanism for frames in a video. In particular, regarding the third topic, a reinforcement learning method has been developed to train a model that is based on a memory defined as a finite external storage and can update it so as to achieve the optimal understanding of contents in a video. In addition, this method has been extended to the data mining field, where a dataset containing a large number of items is targeted, and a model is trained to update a set of items in order to form statistically characteristic sets.
|
Academic Significance and Societal Importance of the Research Achievements |
深層学習の導入によって、画像認識性能は大幅に向上したが、映像認識では、それほどの性能向上が得られていない理由として、画像認識で用いられているたたみ込みニューラルネットワーク(CNN)の演算が人間の知覚メカニズムとよく合致している一方で、時間を伴う映像に対しては、長短期記憶(LSTM)などの既存モデルの演算が、人間の時間知覚メカニズムに合致していない点が挙げられる。この問題に対して、行動心理学に基づいて、人間の意思決定をモデル化するために有用な強化学習という手法を用いて、映像の内容を適切に理解するための記憶伝達メカニズムを模倣するモデルを学習し、その有効性を実験的に示した点に学術的意義がある。
|
Report
(4 results)
Research Products
(13 results)