研究課題
本研究課題の目的は,画像・動画処理技術と言語・知識処理技術を統合的に用いることにより,動画中に描写されている,エージェントによる意味ある動作区間を検出し,その内容を表す意味注釈を付与することにある.本研究計画の初年度である2017年度は,以下の項目についての検討を進めた.(1) フレーム画像からのシーングラフの生成: 動画におけるフレーム画像に描写されている物体,および,それらの間の関係をシーングラフと呼ぶグラフ構造として抽出することは,動作区間の検出・記述における基本技術である.計算量を押さえつつ,膨大な組み合わせとなる物体識別,この結果を利用した関係識別に取り組み,それぞれ有用な結果を得るとともに,これらを統合的に行う方式の検討を進めた.(国際会議論文 1件,国内会議論文 1件)(2) クエリに基づく動画検索: 動画中に描写される可能性のある物体やその動作などを識別する研究を継続的に研究し,アドホック動画検索タスク (TRECVID AVSタスク) の文脈において検証し,良好な結果を確認した.また,(3)の言語の意味表現に関する基礎研究から得た知見をもとに,検索クエリにおける多義語の語義解消の検索精度向上に与える効果を評価した.(国際会議論文 1件,国内会議論文 2件)(3) 言語の意味表現に関する基礎研究: 深層学習時代における言語学的知識・知見の活用について包括的に再検討した.また,言語情報を活用したゼロショット物体認識,語義・概念の分散表現の意味関係分類や未知語意味推定などへの応用,非テキストモダリティの情報を加味した意味表現に関する検討などを進めた他,本研究課題の主要な課題の一つである動詞のもつ機能・意味に関する分析について有益な指針を得た.(国内誌招待論文 1件,国際会議論文 7件,国内会議論文 8件)
2: おおむね順調に進展している
当初計画していた,画像に対する意味的注釈付与のためのオントロジー体系に構築については,大規模な注釈付き画像データベースに対するボトムアップ的な分析を進めたが,データに含まれるノイズやバイアスのために有用な結果を得ることはできていない.その一方で,アドホック動画検索との技術的な共通性に注目することにより,動画(フレーム画像群)に対して,多数の識別器を適用することによる物体・シーン・動作の検出について進展が得られた.またそこにおいて,言語の意味に関する基礎的研究の成果が適用できることが確認できた.以上より,総じて概ね順調に進展したと評価する.
本研究課題の申請時からの研究展開の顕著な方向性として,深層学習を応用した画像・動画からのキャプション生成技術が進展してきたことが挙げられる.そこで,申請時の方針 (シーングラフを時間方向に展開して動作の意味記述を得る) に加え,まずキャプションを言語生成し,それから意味記述を求める手法を並行して検討する.この方法では,評定者によって付与されたキャプションを学習データとするため,そのバイアスに強く影響されるという問題があるが,一方で学習データが得やすいという利点もある.以上から,本研究計画の2年目となる2018年度は以下の方針による研究を推進する.(1) 動画からの動作区間の抽出とキャプション生成: 現在,大きな進展を見せつつある動作に関する画像データ (ActivityNet) を利用し,動作区間の検出・分類,これを制約として利用する動作キャプションの生成に関する研究を立ち上げる.(2) キーとなるフレーム画像からのシーングラフ生成の高度化: 本年度までの成果に基づき,計算効率を保ちつつシーングラフ生成の精度を改善する方式の研究を進める.このために,知識グラフや画像の描写するシーン分類などの先験的・体系的な知識の利用法を明らかにする.(3) 意味・知識基盤技術の研究の継続: 特に動作を表す動詞の時間的構造,意味注釈に置いて利用するオントロジー体系,オブジェクト・エンティティの意味属性・制約に関する基礎基盤的研究をさらに強化する.
すべて 2018 2017
すべて 雑誌論文 (1件) 学会発表 (20件) (うち国際学会 9件) 図書 (2件)
人工知能学会誌
巻: 32 ページ: 384--393