研究課題/領域番号 |
16K00247
|
研究機関 | 大阪府立大学 |
研究代表者 |
岩田 基 大阪府立大学, 工学(系)研究科(研究院), 准教授 (70316008)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 文書画像理解 / 漫画 / コンテンツ解析 |
研究実績の概要 |
交付申請書の「研究の目的」において,本研究にて扱うテーマとして,局所特徴量による解析,深層学習による特徴量抽出ならびに解析,テキストに基づく解析,読者の視点情報に基づく解析の4つを挙げた. これらのうち,読者の視点情報に基づく解析の成果をH28年度に発表した.H29年度には,深層学習による特徴量抽出によって漫画のストーリーを記述する特徴量を得る手法を提案し,11月の国際ワークショップMANPU2017にて "Comic story analysis based on genre classification" と題して発表した.この発表内容をさらに進めたものについてH30年度4月にオーストリアで開催される国際会議DAS2018に投稿し,査読の結果採択され,発表を予定している. 深層学習による特徴量抽出というカテゴリでは,漫画中のキャラクターの顔のランドマーク(目鼻口,輪郭などの位置情報)を推定する手法の開発を進めている.これがある一定の精度で実現すれば,漫画のキャラクターの顔をアニメーションさせることによって,感情表現の幅を広げることができる. 研究を推進するために,漫画画像を対象とした研究全般を扱う国際ワークショップMANPU2017を企画し,General co-Chairとして参加した.このワークショップは,国際会議ICDAR2017のサテライトワークショップとして,2017年11月に京都で開催した.ICDAR2017自体は京都テルサにて開催されたが,近くに京都国際マンガミュージアムがあったため,MANPU2017は前半を京都テルサで開催し,後半を京都国際マンガミュージアムで開催した.なお,MANPU2017の開催費用はICDAR2017からの補助で賄った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
深層学習による特徴量抽出ならびに解析:深層学習によって漫画の各ページがどのようなタイプのシーンなのかをクラス分類し,得られたクラスの系列によって漫画のストーリーを記述する手法を提案した.これに伴い,漫画を対象とした研究に利用できるデータセットManga109に含まれる36種の漫画に対して各ページがどのようなタイプのシーンなのかを人が手でラベル付けした,Ground Truthを作成した.このGround Truthについては,H30年度4月に開催される国際会議DAS2018での発表の後に公開予定である. それ以外にも,深層学習を用いて漫画のキャラクターの顔のランドマーク(目鼻口,輪郭などの位置情報)を推定する手法の開発も進めている.すべてに対応することはまだ難しいが,正面顔や少し斜めの顔については一定の精度でランドマークを検出でき,他の動画で話している人の口の動きを漫画キャラクターに実行させられることを確認している. テキストに基づく解析:漫画の1コマ内のキャラクターの表情と台詞を対象とした解析によって,表情を解析しただけでは分からない物語上のニュアンスを検出し,コンテンツの解析に利用することを試みた.ここでは,表情認識によるpositive/negativeと台詞を解析することによるpositive/negativeを組み合わせて,表情では笑っているが内心複雑な気持ちを抱いているといったような,物語上で重要となるような要素を取り出せないかを試した.台詞の解析が単語レベルであったため精度は低かったものの,positiveな台詞を話しているときの表情は控えめに描写される傾向にあったり,negativeな台詞を話しているときの表情は強く描写される傾向にあるなどの相関関係を見出すことはできた.
|
今後の研究の推進方策 |
深層学習による特徴量抽出ならびに解析:深層学習によって漫画のストーリーを記述する手法を提案し,人が手で作成したストーリー記述をある一定の精度で推定可能であることを確認したが,それを実際に用いて,類似したストーリーの漫画を検索できるかや,個人の好みに合った漫画のリコメンドができるかなど,実用的な利用方法について検討していく必要がある.H30年度には,実用を踏まえた性能評価を行い,実用に適した性能を向上するためにどのような改善ができるかなどを検討する. 深層学習を用いたキャラクターの顔のランドマーク推定については,ランドマークの推定精度の向上と,得られたランドマークの実用上の利用という二点から考察し,実用に適した推定精度の改善を検討していく. テキストに基づく解析:漫画のストーリー記述について,テキストは重要な手がかりとなる.テキストだけを見ても分かるようなストーリー上の特徴を取り出すために利用することはもちろん,テキストとキャラクターの相関を使って,この漫画の中ではこのテキストはこのようなキャラクターの感情とリンクしている,というような教師データを必要としないような解析ができないかを試みる.
|
次年度使用額が生じた理由 |
【理由】研究計画に記載していた通り,深層学習のために用いる計算サーバ(1,200千円)を購入する予定であったが,本年度は大規模なデータセットを用意できなかったものの,平成30年6月に開催される国際会議CVPR2018にて研究に利用可能な漫画データベースManga109のGround Truthデータが公開予定のため,それに合わせて性能の高いGPUを購入するために,平成30年度予算に繰り越すこととした. 【使用計画】平成30年度に,深層学習用のGPUサーバを購入する.次善案として,公開されたGround Truthデータに我々の研究に適したデータ(顔のランドマーク情報など)を追加するための人件費として利用する.
|