2014 Fiscal Year Research-status Report
機械認識に基づくラベルなしデータの構造化とその応用
Project/Area Number |
26330286
|
Research Institution | Waseda University |
Principal Investigator |
松山 泰男 早稲田大学, 理工学術院, 教授 (60125804)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 類似動画像検索 / 数値ラベル / M-distance / 機械学習 |
Outline of Annual Research Achievements |
この研究は,大量で多様なデータが無秩序に蓄積され続けてビッグデータを構成している今日,機械学習の手助けを得てその構造化を図り,検索や意志決定を容易にすることを目的としている.このとき,各データに数値ラベルを付加し,それを利用する.このような数値ラベルは単なる離散記号として扱うのではなくて,その値の連続性がデータ間の類似度を反映するように設定する.すなわち,機械学習アルゴリズムに基づくソフトラベルとしての役目を与える.このような方式が有効となるデータのクラスにはいろいろなものがあるが,この研究の開始と共に,動画像すなわちビデオデータの構造化を対象として設定した.これは,スマートメディアの普及により大量かつ無構造な蓄積が最も顕著であり,かつその構造化の恩恵が飛びぬけて大きいクラスとなっているためである.平成26年度においては,個別の動画像内を処理するアルゴリズム(イントラビデオ)と,データベースとしての動画像間の関連を調べるアルゴリズム(インタービデオ)の両方について,基本方式を確立することができた. まず,イントラビデオアルゴリズムについては,エクゼンプラーとよばれる代表静止画フレームを,時間依存型のベクトル量子化法,ペアワイズ最隣接法,そしてアフィニティ伝播法によって自動抽出できる方法を確立した.次に,インタービデオアルゴリズムについては,各ビデオ内にあるエクゼンプラー集合に対して,大域的比較と局所的比較をそれぞれ可能にするアルゴリズムを確立することができた.これは,生命情報処理におけるNeedleman-WunschアルゴリズムとSmith-Watermanアルゴリズムを特例として含む拡張型となっていて,この研究ではそれをM-distanceと呼ぶことにした.これにより,ビデオデータの数値ラベル化とその比較法の実現という,第一段階の目標を達成した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
この研究においては,当初設定しておいた目標を達成することができている.その目標は,次のような四つのレベルにより説明できる.すなわち,(1)動画像に対する数値ラベルをエクゼンプラーとして割り当てる機械学習アルゴリズムの設計,(2)その機械学習に基づく数値ラベルを割り当てられたビデオ画像どうしの類似性を比較する方法の確立,(3)数値化された類似度によるランキング化の実現,(4)そしてそのためのGUI(グラフィカルユーザーインターフェース)の作成である. 上で列挙した問題のうち,(1)については時間依存な学習アルゴリズムとして三つの方式を作成し,類似度計測のための性能と計算速度との両面に基づく比較を行った.その結果,類似度測定においてはどの方式も良好な性能を示したが,計算速度という面からは時間依存型のペアワイズ最隣接法が最も良いという結論を得た.次に,(2)にある,数値ラベルの付いたビデオ間比較のために枚数の異なるエクゼンプラー集合どうしを比較できる一般化法については,ギャップとエクゼンプラーの勢力領域を反映できるM-distanceを提案し,これが実用になることを確認した.(3)のランキング化はギャップの挿入度に依存する数値順とした.(4)のGUIとしては,クエリとする動画像のエクゼンプラー集合と共に,類似度順にデータベース中のビデオのエクゼンプラーを表示して,ユーザーに視覚的な判断を行いやすくするシステムを作り上げた. 以上の成果のうち,この研究にける独創性は(1)における時間依存型のエクゼンプラーを抽出できるアルゴリズムと(2)における一般化された類似度比較法(M-distance)にあり,これらを組み合わせた類似動画像検出法を特許申請した.
|
Strategy for Future Research Activity |
本課題における今後の研究においては,二つの方向からのアプローチとそれらの統合を目指すことになる.まずボトムアップ的アプローチであるが,これについてはビデオ内の各フレームについて高度な特徴量を用いることがあげられる.平成26年度では全体的なプロトタイプを期間内に作り上げるという制約のために,機械学習のための評価関数として,CSD(color structure descriptor)という簡便な色ヒストグラムを採用した.しかしながら,これは静止画フレーム内の物体に関する情報抽出能力が十分ではない.一方,規格化が進んでいるMPEG7においてはBoW(bag of words)という数値ラベルの規格が作成され,CSDよりも静止画内のオブジェクトをより詳しく反映できると推奨されている.平成26年度の研究で作成しておいた類似動画像検索システムは,ソフトウェアの一部分である特徴量抽出関数を差し替えることができて,どのようにでも高度化が可能になっている.そこで,まずBoWを特徴量として用いるシステムを作り上げることにする.一方,このBoWは輝度情報のみを反映する特徴量なので,色情報であるCSDを組み合わせて類似性の判定がより人間の感性に近いものとなるようにする. 逆方向からのトップダウン的アプローチとしては,すでに人手による言語的ラベル化が付いているビデオ画像との類似性をランキング付きで求め,それらに付けられている自然言語ラベルの共通点を抽出することを行う.これにより,クエリ画像そのものに自然言語的ラベルを付けることができる.これは,鋳型となる語群を用いたラベル付けであり,実行可能である.さらに,ボトムアップとトップダウンの接点には,異質な層を重ねた深層学習システムが存在しうる.この部分はまさしく本研究計画に続く次世代にあり,その構想をまとめておくことが重要な課題となる.
|
Causes of Carryover |
ポータブルHDDやCD-Rのような消耗品を購入する予定の額であったが,小容量のものを購入するよりも,もう少し容量の多いものを購入したいため,次年度使用額として繰り越した.
|
Expenditure Plan for Carryover Budget |
消耗品としての記憶媒体の購入に充てる.
|