2018 Fiscal Year Annual Research Report
画像と言語を用いた質感情報表現のディープラーニング
Project Area | Understanding human recognition of material properties for innovation in SHITSUKAN science and technology |
Project/Area Number |
15H05919
|
Research Institution | Tohoku University |
Principal Investigator |
岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)
|
Co-Investigator(Kenkyū-buntansha) |
川嵜 圭祐 新潟大学, 医歯学系, 准教授 (60511178)
|
Project Period (FY) |
2015-06-29 – 2020-03-31
|
Keywords | 深層学習 / コンピュータビジョン / 質感認識 / 画像復元 / 画像と言語の融合タスク |
Outline of Annual Research Achievements |
研究計画に従い,質感認識システムの実現にむけて多方面から取り組み,以下の成果を得た. CNNと人の視覚機能の振る舞いの違いの一つに,ノイズ等の画質劣化への耐性がある.これに対しわれわれは,画質劣化に対し,本質的な耐性を向上させるCNNの構造を研究し,活性化関数に手を加えることで性能を向上させられることを発見し,国際会議CVPR2018にて発表した.さらに,劣化した画質を改善する画像復元の研究を行い,いくつかの成果を得た.画像復元タスクを対象としたネットワーク構造の自動設計手法を世界で初めて開発,その効果を確認し,国際会議ICML2018にて公表した.その後の研究により,画質劣化に対し強力な性能を発揮するCNNの構造(双残差結合)を考案し,これが多様な劣化要因(ガウス性ノイズ,雨筋,雨滴,JPEG圧縮ノイズ,モーションブラー,霧・霞)を対象に,それぞれに細部構造を最適化することで,世界最高水準の性能を達成した.この方法は,入力画像が含む劣化要因が特定できない場合には使えない.そこで,その場合に,画像を復元可能な方法を開発している.以上の方法はともに,国際会議CVPR2019に採択されている. 画像から認識した質感は,最終的には人に理解可能な言語情報として表現・出力する必要がある.画像と言語の間のクロスモーダルな情報統合を,注意(アテンション)を軸に実現する方法を開発し,国際会議CVPR2018で発表した.その後の研究で,画像と言語の融合タスク複数を,同一のネットワークによりマルチタスク学習の枠組みで学習する方法を開発し,国際会議CVPR2019で発表予定である. この他,質感認識の応用として,ファッションの着合わせの良し悪しを画像から推定し,ユーザにファッションアイテムの推薦を行う方法を研究してきたが,その推薦の根拠を説明可能な方法を開発し,国際会議に論文を投稿した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画の中では,「研究実績の概要」に報告した通り,画質劣化への耐性の向上と,画像と言語の融合タスクにおいて,難関国際会議に論文が複数採択されるなど,進捗は順調である.一方,ランキングタスクにおける人と機械システムの正当な比較方法の理論の構築と,多層CNNとサルの視覚皮質の比較分析については,研究は一定の進捗を見ているものの,成果の公表が十分に行えていない.以上を総合的に判断すると,進捗はおおむね順調であると判断される.
|
Strategy for Future Research Activity |
これまで,多様な要因で低下した入力画像の画質を,CNNを用いて改善する方法を研究してきた.そこでは,異なる要因ごとに個別のCNNをデザインし,学習を行う必要があった.今後は,マルチタスク学習等の手法を用いて,単一のCNNで多様な画質低下を扱うことのできる方法の実現に取り組む.この取り組みを通じ,画質低下を改善する上で必須と考えられる「自然画像の構造」が,CNN内でどのように表現されているかを分析することを目指す.質感は画質と深いつながりがあるが,この分析によって質感を構成する要因が何であるかを考え,一定の知見としてまとめる. 次に,多層CNNとサルの視覚皮質の比較分析については,本領域で開発された質感画像データセットを用い,サルの視覚野の脳皮質電位図と多層CNNの関係を調べて行く.画像をサルに提示し,脳活動を記録するとともにその分析を進めることにしている. また,ランキングタスクにおける人と機械システムの正当な比較方法の理論の構築と,多層CNNとサルの視覚皮質の比較分析については,成果の公表を進めることとする.
|
Research Products
(22 results)