研究課題/領域番号 |
17K00511
|
研究機関 | 早稲田大学 |
研究代表者 |
渡辺 裕 早稲田大学, 理工学術院, 教授 (10329154)
|
研究分担者 |
柳澤 秀彰 早稲田大学, 理工学術院, 助手 (60801280)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | マンガ / メタデータ / 深層学習 / キャラクター抽出 / コマ抽出 / 吹出し抽出 / セリフ抽出 / オブジェクト認識 |
研究実績の概要 |
マンガ画像からメタデータを抽出するための深層学習としてFaster R-CNNを用い、「コマ」「吹出し」「キャラクター」「セリフ」を学習させた後に、入力マンガ画像に対して動作させることで、これらのメタデータを高い精度で抽出することが分かった。さらに、一般物体認識において優れたオブジェクト認識手法として知られているSSD (Single Shot Multi-Box Detector) と比較した結果、Faster R-CNNが優れることが分かり、検討結果を国際会議で発表した。抽出処理の高速化が課題として残るが、ほぼ90%の検出率が得られていることから、今後もFaster R-CNNを用いてメタデータ抽出を継続することとした。関連する研究成果の発表は3件である。 キャラクター分類については、事前知識なしでキャラクターを自動分類するための手法として、X-means法の適用を検討した。関連する研究成果発表は2件である。キャラクターの顔画像部分に対して、SURF特徴量と求めて分類する場合と、CNNを適用してその特徴量マップ利用して分類する場合の二つの手法について分類精度を比較したが、有意な差は見られなかった。この原因として、キャラクターの背景画像が分類結果に影響を与えたためと考えられ、背景画像のノイズ除去を行った。その結果、分類精度が向上することが分かった。 また、深層学習を用いたマンガキャラクターの顔画像検出において、どの程度の変形まで顔とみなして認識するのかを直感的に捉えるために、マンガ顔パーツを用いた福笑いを作成し、目や口のパーツの移動量に応じて、顔検出の精度が変化する様子をconfidence値の変化で示した。この成果はキャラクター分類の精度向上のために利用できると考えられる。関連する発表成果は2件である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
マンガ画像から「コマ」を検出した後、読み順に従ってソーティングし、それらのコマに含まれる「吹出し」、「キャラクター」をメタデータとして抽出する目的で、Faster R-CNNを用いた。約1000個のデータに対して、コマ、吹出し、キャラクターの検出率は、90%、98%、86%であった。一括学習モデルと個別学習モデルの比較が平成29年度の目標の一つであった。近年オブジェクト認識の代表的な手法として知られている一括学習型モデルのSSD (Single Shot Multi-Box Detector) と、個別学習型モデルのFast R-CNN、Faster R-CNNの検出性能を調べた結果、Faster R-CNNが最も高い検出率を与えることがわかった。これによって、比較実験の第1段階が終了したと考えられる。 処理時間については、現在特に高速化が要求されるような状態ではない。そこで平成30年度の研究計画にある、キャラクターの顔画像分類の基礎検討にも着手した。事前知識なしでキャラクターを自動分類するための手法として、X-means法の適用を検討した。ベイジアン情報量基準による分割停止基準を用いて最適なクラスタ数を決定した。その結果、X-means法とSURF特徴量を組み合わせた手法は、k-means法に比べて特定のキャラクターにおいて分類精度が76%以上も向上することがわかった。 さらに、SURF特徴量を深層学習(CNN) の特徴量マップに置き換えても、分類性能は向上しないことがわかった。この原因として、キャラクターの背景画像が分類結果に影響を与えたためと考えられ、継続して検討を行っている。
|
今後の研究の推進方策 |
今後の研究課題として、まずキャラクター分類精度の向上が必要である。マンガ画像からのコマ、キャラクター、吹出し、セリフといったメタデータ抽出には、SSDよりもFaster R-CNNによる検出精度が優れることが確認できた。一般的な多くのマンガで学習させたFaster R-CNNを用いて、特定のマンガ一冊に対してキャラクター検出を行うと、複数の登場キャラクターが得られる。多くの登場キャラクターを何らかのクラスタリング手法を適用することで、メインキャラクターと複数のサブキャラクターに分類可能であると考えられる。研究着手段階では適当なクラス数のk-means法を用いたが、クラス数を限定しない手法が望まれる。X-means法はクラス数を限定しない手法の一つであるが、必ずしもうまくメインキャラクターを抽出できてはいない。X-means法の改良は検討課題である。 二つ目の研究課題としては、コマを単位としたメタデータの構造化が必要である。抽出されたメタデータはオブジェクトとして、位置座標、サイズ、属性、画像が記録される。どのコマにどのキャラクターが含まれるかといった包含関係を記述する手法の検討が必要である。 さらに、構造化されたメタデータから、マンガのストーリーの需要な部分に対応するページを自動的に抽出するための選択手法の検討が必要である。映画のトレーラー(要約)作成手法やビデオ要約におけるアプローチが転用可能かどうかを検討する。 Faster R-CNNは個々のメタデータに応じて学習させておけば複数のネットワークが得られる。入力画像に対して並列に動作させることで、高速にメタデータを抽出できると。しかしより高速に抽出するためには、コマを抽出後にキャラクターと吹出しを関連付けて抽出するような従属処理が必要である。GPUの特性を利用したメタデータ抽出の高速化も検討課題である。
|
次年度使用額が生じた理由 |
2017年度の物品費は当初GPUGPUワークステション(パソコン工房製・GU-1000B)単価880000円を想定していたが、類似性能のDeep Learning Box(トーワ電機株式会社製)を853367円で購入したため、26633円の誤差が生じた。旅費及び国際会議出席のための外国旅費、並びに学会参加費はほぼ予定通りの使用額である。また人件費の項目もほぼ予定通りの使用額である。
|