研究課題/領域番号 |
25330137
|
研究機関 | 早稲田大学 |
研究代表者 |
渡辺 裕 早稲田大学, 理工学術院, 教授 (10329154)
|
研究分担者 |
石井 大祐 早稲田大学, 理工学術院, 助手 (40581525) [辞退]
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 顔画像検出 / マンガ画像 / HOG特徴量 / Deformable Part Model / キャラクター抽出 / 自動要約 |
研究実績の概要 |
研究目的:マンガエピソードの自動要約生成には、マンガ登場人物のキャラクター、吹出しに含まれるセリフ、背景画像、オノマトペ、コマ分割情報などの多くのメタデータが必要である。このうちキャラクター抽出は自動要約にとって最も重要な課題である。そこで本研究では、マンガキャラクターの顔検出を中心に各種メタデータの抽出を目標とした。 研究方法:予備実験によりマンガのキャラクター抽出を目的とした顔画像抽出のための特徴量としては、HOGを基盤としたDeformable Part Modelが最も効果的であることが分かった。マンガキャラクターは、前髪、目、口などの位置がマンガ毎やキャラクター毎に大きく変化する。そこで、Deformable Part Modelをマンガキャラクター抽出へ適用し、その検出特性の改良について検討した。 研究成果:1. Deformable Part Modelをキャラクターの顔画像抽出に適用して検出実験を行った。その結果、単純なHOG特徴量とSupport Vector Machine (SVM) 識別器を用いる場合に比べて、Deformable Part Model による検出時のF-measureは、既知画像に対して39.7%改善され98.0%となり、未知画像に対しては43.5%改善され84.1%となった。 2. Deformable Part Modelの高精度化を目指して、局所バイナリパタン特徴量を組み合わせた場合に、検出率はほぼ変化せずパートフィルタ位置が変化する結果が得られた。 3. HOG+SVM識別器やDPMによる識別器をマンガキャラクターに適用する場合、正例として複数のキャラクターを混合して学習させた後に検出を行う場合と、キャラクター毎に個別に学習させた場合を比較した場合、混合学習よりも個別学習によって検出精度が向上することが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1. 当初計画タスク 当初の研究計画に挙げた2013年度の4項目の研究タスク(1. 初期データセットの作成、2. Haar-like特徴量の改善、3. 教師付き学習、4. データベース/識別器の更新)のうち、項目1は完了し、項目2はHaar-like特徴量の改善からHOGを基盤とする手法に切り替えたために完了している。また項目3はDeformable Part Modelによって計画通りに研究が実行できた。項目4についてはデータベース規模が大きいほど汎用性のある学習器を作成できるため、今後も継続して作業を行う。 2. 主な達成項目 HOG特徴量とSVM識別器を用いたマンガキャラクター抽出の予備検討では、学習回数と学習成功率の関係について調べ、約80回以上の学習回数が必要であることが分かった。さらに正例数400程度で検出率が収束することが分かった。 またDeformable Part Modelを用いたキャラクターの顔画像抽出結果は、国際会議IEVC2014に投稿し採録された。正例数28負例数114の小規模実験では、Deformable Part Model による検出時のF-measureは、既知画像に対して95.3%、未知画像に対して92.2%となった。正例数、負例数をそれぞれ300、1000に増加させた場合には、F-measureは既知画像に対して98.0%、未知画像に対しては84.1%となった。 また背景画像及びキャラクターの前髪形状によるシーンの分類機能について予備検討を行った。その結果、P-型フーリエ記述子を用いた前髪形状によるキャラクター分類は80%程度可能であることが分かった。背景画像とジャンルの対応については、7割弱の分類が可能である。またオノマトペの描画方法は大別して2通りあり、モフォロジー演算と領域分割処理によってある程度の形状抽出が可能である。
|
今後の研究の推進方策 |
マンガ顔画像抽出については、顔画像のパーツの相互位置関係を利用するDeformable Part Modelと組み合わせる特徴量についてさらに詳細検討を継続し抽出精度の向上を目指す。特にマンガキャラクターの顔パーツの変化に対応できる能力のある特徴量の利用を試みる。昨年度までに、Local Binary Pattern (LBP)と呼ばれる局所2値パタンをHOGに組み合わせることで、Deformable Part Modelのパーツ位置がより変動することが分かったが、検出率の向上には直接寄与しなかった。今後は、Deformable Part Modelと組み合わされるLBPの動作原因を詳細に調べ、より高い検出率を得ることのできる特徴量を探求する。 また、マンガ自動要約のためのキャラクターリストの自動生成について検討を開始する。自動要約の対象とするマンガに対して顔画像検出を行い、得られたキャラクターの顔画像の分類を行う。これらの分類には前髪の形状がある程度有効であることが昨年度までの検討で分かったが、その識別精度は現状では不十分である。さらに他の特徴量を導入することにより、マルチモーダルな判断処理を行う必要があると考えられる。これら複数の特徴量からキャラクターの顔画像間の類似度或いは距離尺度を導出する予定である。 マンガの自動要約を目指して、登場キャラクターの顔画像の出現頻度、サイズ、登場順序、コマ位置、コマサイズ、セリフ、背景画像など、利用可能な特徴量をリストアップする。さらにこれらの特徴量を重要性尺度へ変換し、要約版を形成するページの抽出を行う。エピソードの自動要約には映画やプロモーションビデオにおける手法を参考に進める。ユーザビリティの評価手法については、定性的評価としてユーザビリティテストとエキスパートレビューを検討し、定量的評価としてアンケート調査を行う。
|
次年度使用額が生じた理由 |
2014年度予算額は約109万円であったのに対して使用額は約89万円(主に国際会議53万円、国内学会18万円、人件費18万円)であった。予定以上の支出となったものは、国際会議参加費と旅費2名分であり約53万円であった。また国内学会参加費と旅費は2名分で約18万円であった。研究遂行に必要な計算機設備については、ハードディスク容量及びメモリ規模において現状で十分な能力を持っているため、増強する必要性が低下した。そこで消耗品の購入を見送り、その分の研究費を学会発表経費と出張費に転用した。また一昨年度、マンガ画像に含まれる顔画像データセット作成着手時期が遅れため、その時期が昨年度にも影響して人件費の消費ペースが約18万円となった。予算額約109万円から使用額約89万円を差し引いた約20万円が、2015年度に繰り越された。
|
次年度使用額の使用計画 |
2015年度の当初予算は70万円であったが、2014年度残高の203,922円が加わり、合計で903,922円の予算となっている。2015年度は、顔画像データセット作成にかかる人件費の消費ペースは予定通りに行える状況にあり、9万円を支出する予定である。またDeformable Part Modelを用いたマンガ顔画像検出手法の研究成果についてはジャーナル論文として投稿中であり、採録された場合には論文掲載料として10万円を見込んでいる。また、国際会議参加費と旅費、及び国内会議参加費と旅費を合わせて62万円を計上している。2014年度に使用しなかった計算機増強のための経費は、PCメモリ増強或いはハードディスク追加のための消耗品費用として約9万円を見込んでいる。
|
備考 |
石井, 渡辺: “2値線画像解析のための2値方向パターンヒストグラム特徴量HBOP”, 早稲田大学GITS/GITI紀要2013-1014, pp.33-44, Oct. 2014
|