2017 Fiscal Year Research-status Report
ディープニューラルネットワークによる静止画像からの動画像生成手法の開発
Project/Area Number |
17K12689
|
Research Institution | University of Tsukuba |
Principal Investigator |
遠藤 結城 筑波大学, システム情報系, 助教 (00790396)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | コンピュータグラフィックス / 画像処理 / 深層学習 / ニューラルネットワーク / CNN / LSTM / 生成モデル |
Outline of Annual Research Achievements |
一枚の静止画像から動画像を生成することを目的として、ディープニューラルネットワークによる生成手法の開発に着手した。平成29年度の実施計画では、動画の多様な変化を扱うために、画素値の変化量を制限した複数のネットワークモジュールによって、色味とテクスチャのような変化の度合いが異なる要素に分けてモデリングすることを予定していた。実際に、動画中の色味あるいはテクスチャの変化を学習させるために、畳み込み層のエンコーダデコーダからなる次フレーム画像生成ネットワークと、特殊な正則化を利用した学習手法を開発した。特定のシーンに絞った小規模の学習データセットで予備実験を実施したところ、ベースラインの手法よりも質の高い結果を生成できることを確認しており、現在はさらに大きなデータセットを用いた評価実験を進めている。良好な結果が得られ次第、国際会議や学術誌への投稿を進めていきたい。
また平成30年度以降の計画としてあげていた、長期間の予測が可能なモデルへの拡張方法も並行して検討した。Convolutional LSTM や3D 畳み込み処理を組み込んだネットワークを検討して、予備実験を実施したものの、現状は高品質な結果の生成には至っておらず、今後さらなる手法の改良を進めていきたい。他方で、ここで検討するモデルは、動画像に限らず他の2D や3D データを扱える汎用的なものであるため、本研究課題の促進を図り類似タスクの応用研究も推進した。具体的には画像の高階調化や領域分割手法も開発し、これらの成果は「Deep Reverse Tone Mapping」や「Transferring pose and augmenting background for deep human-image parsing」などのタイトルで国際会議や論文誌に採択されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
以下の点から、研究はおおむね順調に進展していると考える。 1)当該年度の実施計画に従い基礎となるモデルを開発し、大規模な実験は行えていないものの、簡易データセットによる実験で一定の有効性を確認した点。 2)次年度の計画である長期間の予測についても若干の検討を進めた点。 3)上記検討の過程で他の類似タスクの研究を遂行し、国際会議採択や学術誌採録につながった点。
|
Strategy for Future Research Activity |
今後の課題として、まず(1)多様なシーンを含む大規模な動画データセットを実験用に構築する必要がある。Web からデータを収集し、ノイズとなるデータやフレームを、手作業あるいは何らかの自動化された方法で取り除く。次に(2)検討中のモデルに対する実験を実施し、現状の問題点を洗い出す必要がある。特定のシーンに限定された小規模データでは比較的良好な結果が得られているものの、モデルの汎化性能には限界があるため、現状のモデルでどの程度のバリエーションを学習可能かを明確にする。この段階で、学術的に価値のある結果が得られれば国際会議や学術誌に投稿する。また、現状のモデルの制約として扱えない動きが存在することが既に明らかであるため、(3)生成される動画の表現の幅を広げるためにモデルや学習手法のさらなる改良が課題となる。このためにadversarial loss を使った学習や、前述のLSTM や3D 畳み込みにもとづくさらなる改良を検討していく。
|