2015 Fiscal Year Research-status Report
可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用
Project/Area Number |
15K16019
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
井上 中順 東京工業大学, 情報理工学(系)研究科, 助教 (10733397)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 映像認識 / パターン認識 |
Outline of Annual Research Achievements |
平成27年度は,画像とテキストを組み合わせたデータの意味的解析のフレームワークを深層学習を用いて作成し,映像認識での評価実験を行った.これは本研究の最終目標である可変モーダル型の深層学習の画像・テキスト部分に相当するものである.本成果は,国際会議ACM Multimediaおよび国際ワークショップTRECVIDで発表を行った. 提案したフレームワークにより,これまで独立に研究開発されてきた画像・テキストの深層学習モデルを統合することが可能になった.実際,評価実験では,大規模画像データから学習したConvolutional Neural Network (CNN)と,大規模テキストデータから学習したSkip-gram (SG) modelを組み合わせたシステムを構築している.このシステムは,物体・動作・シーンを表す語の中から,画像の学習データがある語に対してCNNで検出器を学習し,その重み付き和で,学習データの無い語の検出器を構成するというもので,重み係数をSG modelから生成した単語ベクトルのベクトル間距離で算出している.その有用性はTRECVIDの大規模映像データセットで示している. 本成果は画像・テキストの深層学習を統合できるという点で,多種多様な大規模データの解析に貢献するものであると言える.しかし,実験結果より,映像とテキストではデータの内容・質・量に差があることが明らかとなったため,その差を埋めることが直近の課題である.さらに,当初計画通り,映像中の音情報の解析へと研究を発展させることが必要である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り,画像とテキストを統合したシステムを構築できたという点から,研究はおおむね順調に進展している.
|
Strategy for Future Research Activity |
今後の課題として,以下の2つが挙げられる. 1) 画像とテキストデータの差を埋める適応手法の研究 2) 音と画像の深層学習を統合するフレームワークの作成 研究の進め方として,まず本年度作成したシステムを改良する形で1)に取り組む.2)には,音響情報を取得する深層学習モデルを事前に構築する必要があるため,まず話者認識や音声認識の深層学習手法を映像認識に適用し,その後で今年度作成のシステムへと組み込む方針を取る.
|