2018 Fiscal Year Research-status Report
Research on Automatic Digest Creation for Large Scale Comic Database
Project/Area Number |
17K00511
|
Research Institution | Waseda University |
Principal Investigator |
渡辺 裕 早稲田大学, 理工学術院, 教授 (10329154)
|
Co-Investigator(Kenkyū-buntansha) |
柳澤 秀彰 早稲田大学, 理工学術院, 助教 (60801280)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | マンガ / メタデータ / 深層学習 / キャラクター抽出 / コマ抽出 / セリフ抽出 / オブジェクト認識 / クラスタリング |
Outline of Annual Research Achievements |
事前知識を用いずにキャラクターを自動分類するための手法は、キャラクター顔画像から画像特徴量を算出する工程と特徴量のクラスタリングの工程の二つに分けられる。本研究ではそれぞれの工程について改良を行うことによる、キャラクター分類精度の向上を検討した。関連する研究成果発表は3件である。 画像特徴の抽出に関して、従来の一般物体を学習したCNNに代わり、キャラクター顔画像について学習したCNNモデルを特徴抽出器として用いることによる改良を検討した。83冊のマンガ作品から1222種類のキャラクター顔画像を切り出したデータセットを作成し、キャラクターの分類問題について学習を行ったCNNモデルを使用した。実験より、キャラクター画像で学習したCNNモデルによる特徴記述が、未知のキャラクターを対象としたクラスタリングにおいても有効性を持つことを確認した。CNNの構造および学習方法について今後改良を加えることで、より効果的な画像特徴量の取得が可能になると期待できる。また、画像クラスタリングにおける背景領域の影響を緩和するために、Selective Searchによる背景領域の自動除去に関しても検討を行ったが、有意な結果は得られなかった。これは、一部の顔画像についてキャラクター領域の切り出しが正確に行われなかったことに起因すると考えられる。 クラスタリング手法の改良について、クラスタ数を自動決定しノイズデータに頑強な手法として、DBSCANの適用を検討した。実験ではUMAPで次元削減したデータをDBSCANでクラスタリングすることによって、F値において最大で63.4%の精度での分類が可能であることが分かった。さらに、DBSCANのパラメータの自動決定方法について検討を行い、最高で59.3%のF値が示された。この結果から、本手法をベースにしたキャラクター分類の完全自動化が期待できる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
従来のキャラクター顔画像分類の問題点として、キャラクター以外の箇所に注目して画像分類が行われる点や、登場回数の少ないキャラクターを個別のクラスに分類することが困難である点が見られた。本研究では、前述した問題を解決することによる精度向上を目指した。 従来のCNNよりもキャラクターの特徴表現に適したモデルを得るために、Manga109のマンガ画像から切り出したキャラクター顔画像83,186枚から構成されるデータセットを作成し、CNNモデルの学習を行った。k-means法を用いた実験では、F値において46.2%のクラスタリング精度を達成しており、キャラクター顔画像について学習したCNNの特徴表現が未知のキャラクター画像の分類においても有効性を持つことが分かった。 クラスタリングの改良において、重要度の低いサブキャラクターをクラスタリング対象から除外することによる精度向上を目的として、ノイズデータを外れ値とする手法であるDBSCANの適用を検討した。DBSCANは高次元のデータに対して精度が低下することから、次元削減による特徴量の低次元表現への変換について同時に検討を行った。実験結果では、UMAPによる次元削減を適用した場合に、元のデータと比較して、F値において15.5%の精度向上が確認できた。また、クラスタリングの自動化のためにDBSCANのパラメータを自動決定する方法について検討し、F値において59.3%の精度での自動分類が可能となった。
|
Strategy for Future Research Activity |
今後の研究課題として、キャラクター分類の更なる高性能化が必要である。CNN特徴量およびDBSCANの適用によって、ノイズデータの除去について改善が見られたが、現段階では全ての主要キャラクタを分類する精度は達成できていない。この理由には、現状のCNNモデルはマンガ全般に共通する特徴を捉えるように学習されているため、個々の作品に対する特徴表現が不十分であることが考えられる。特に背景領域が分類精度に影響を与えている。そこで、Selective Searchによる背景領域の自動除去を行ったが、有意な結果が得られてない。より正確にキャラクター領域と背景領域を分離する手法についての検討が必要である。また作品によって、クラスタリングの結果が異なる傾向が見られた。したがって、CNN特徴量をベースとして個々の作品のクラスタリングに適した特徴表現を得る手法について検討が必要である。 二つ目の研究課題として、マンガ画像から取得した「コマ」、「キャラクター」等のメタデータをシーン単位の情報として構造化する手法について検討する必要がある。シーン情報から求められた「ロールコミュニティ」の関連性によってシーンの重要度を推定することが可能であり、これを利用したストーリー要約の生成が考えられる。さらに、マンガ画像からのオブジェクト抽出、キャラクター推定、メタデータ構造化までの工程を一括して処理することによるメタデータ抽出の自動化を目的として、抽出処理の高速化について検討を行う。 研究成果のまとめとして、提案手法である自動生成された要約による試し読みページの提供を行い、従来の巻頭から数ページといった試し読み方式と比較するため、主観評価実験を実施する。
|
Causes of Carryover |
使用総額は概ね一致しているが、旅費の多くを占める航空券は定価がなくジェット燃料費によって価格が変動するため、余裕を持って支出したため残額が生じた。使用計画のうち、当初から消耗品にはメモリ増強を想定していたが、市場価格の低下により、次年度分も今年度に購入することができた。最終年度には評価実験を予定しており、旅費を抑えて人件費・謝金を確保しておく予定である。
|
Research Products
(4 results)