2011 Fiscal Year Research-status Report

Ｗｅｂマルチメディアマイニングによる動詞概念と名詞概念およびその関係の自動学習

Research Project

Project/Area Number	23650044
Research Institution	The University of Electro-Communications
Principal Investigator	柳井啓司電気通信大学, 情報理工学(系)研究科, 准教授 (20301179)
Project Period (FY)	2011-04-28 – 2014-03-31
Keywords	動作認識 / Web動画 / 一般物体認識
Research Abstract	本年度は，動詞と名詞を組み合わせたキーワードに対応する動画ショットをWeb上の動画共有サイトYoutube上のWeb動画から自動抽出する技術を開発し，100種類以上のキーワードに関して実際に動画ショット自動収集実験を実施した．　具体的には，"eat+ramen"や"walk+street"などの動詞と名詞を組み合わせたキーワードを用いてYoutube APIを利用してYoutubeに対してテキスト検索を行う．検索結果の上位1000本の動画についてタグの共起性を分析し，再ランキングを行う．そして，上位200本の動画を実際にダウンロードして，動画をショット分割し，それぞれのショットから時空間特徴量を抽出する．さらに，抽出した時空間特徴量を利用してショット同士の類似性を評価して類似度行列を計算し，教師データが不要なPageRank手法を適用して最終的に検索単語に対応するショットのランキングを得る．これは「検索単語に対応するショットは互いに類似していて上位に200本のWeb動画には共通に含まれ，一方，対応しないショットは互いに異なる」という仮定に基づいている．最終的には100種類の動詞名詞の組み合わせについて実験を行い，教師データなしで50％程度の精度を実現した．この成果は画像認識におけるトップカンファレンスの国際会議において発表した．　こうした，教師データなしで，Webから指定キーワードの対応ショットを自動収集する研究は従来ないものであったが，精度は50％程度であり，そのまま動詞・名詞の関係分析に利用可能であるほどには精度が高くないため，その改良手法としてWeb上の静止画像も組み合わせて利用する手法を研究中で，さらなる精度向上を目指している．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 23年度の当初の研究計画は「主に，動作と動作主体・動作対象の動詞概念，名詞概念の組み合わせに対応する動画ショットを大量のタグ付きWeb動画から自動抽出する手法について研究する．また，効率的なWeb動画収集法についても検討する．」であったが，実際に，動詞と名詞を組み合わせたキーワードに対応する動画ショットをWeb上の動画共有サイトからダウンロードして自動抽出する技術を開発し，100種類以上のキーワードに関して実際に動画ショット自動収集実験を実施し，国際会議において成果を発表した．さらに，その改良手法としてWeb上の静止画像も組み合わせて利用する手法を研究中で，さらなる精度向上を目指している．
Strategy for Future Research Activity	今後は，23年度の研究成果を利用して，大規模に動詞概念と名詞概念に関係する動画ショットを大量にWeb動画から収集し，動詞概念と名詞概念の関係について時空間特徴量とエントロピー分析を用いて分析を行う．なお，得られたデータにノイズが多い場合は，自動処理にこだわらずにAmazon Mechanical Turk等のcrowd-sourcingを積極的に利用して分析に耐えうる精度のデータセットを構築する予定である．今年度は「ラーメンを食べる」と「カレーを食べる」のような動作の微小な差異を検出するための方法も研究する予定である．最終的には「ラーメンを食べる」と「うどんを食べる」は共通した動作であるが，「カレーを食べる」は異なるという，同じ動作でも対象によって動作が異なる動詞・名詞の組み合わせを自動発見することを最終目的とする．
Expenditure Plans for the Next FY Research Funding	すでに必要な機材は準備済であるので，24年度の研究費は主に成果発表のための国際会議参加費等に利用する予定である．また，データクリーニングのために，Amazon Mechanical Turk等のcrowd-sourcingの利用費用にも支出する予定である．

Research Products
(4 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results) Book (1 results)

[Journal Article] Folksonomyを用いた画像特徴とタグ共起に基づく画像オントロジーの自動構築2011
- Author(s)
  秋間雄太，川久保秀敏，柳井啓司
- Journal Title
  
  電子情報通信学会論文誌D
  
  Volume: J94-D-8 Pages: 1248-1259
- Peer Reviewed
[Presentation] A Travel Planning System Based on Travel Trajectories Extracted from a Large Number of Geotagged Photos on the Web2011
- Author(s)
  Kohya Okuyama and Keiji Yanai
- Organizer
  Pacific-Rim Conference on Multimedia
- Place of Presentation
  Sydney, Australia
- Year and Date
  2011 – 12
[Presentation] Automatic Construction of an Action Video Shot Database using Web Videos2011
- Author(s)
  Do Hang Nga and Keiji Yanai
- Organizer
  IEEE International Conference on Computer Vision (ICCV)(招待講演)
- Place of Presentation
  Barcelona, Spain
- Year and Date
  2011 – 11
[Book] Multimedia Information Extraction2012
- Author(s)
  Mark T. Maybury (Editor)
- Total Pages
  496
- Publisher
  Wiley-IEEE Computer Society Press

2011 Fiscal Year Research-status Report

Ｗｅｂマルチメディアマイニングによる動詞概念と名詞概念およびその関係の自動学習

Principal Investigator

柳井 啓司 電気通信大学, 情報理工学(系)研究科, 准教授 (20301179)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Folksonomyを用いた画像特徴とタグ共起に基づく画像オントロジーの自動構築2011

Author(s)

Journal Title

[Presentation] A Travel Planning System Based on Travel Trajectories Extracted from a Large Number of Geotagged Photos on the Web2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Automatic Construction of an Action Video Shot Database using Web Videos2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] Multimedia Information Extraction2012

Author(s)

Total Pages

Publisher

柳井啓司電気通信大学, 情報理工学(系)研究科, 准教授 (20301179)