研究課題/領域番号 |
19H01115
|
研究機関 | 東京大学 |
研究代表者 |
原田 達也 東京大学, 先端科学技術研究センター, 教授 (60345113)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 画像認識 / 機械学習 |
研究実績の概要 |
本研究の目的は,少数の教師情報しかない状況において,高精度な画像認識モデルを学習するアルゴリズムの構築である.生成モデルを利用することで,今まで観測されていないデータを生み出すことが可能となり,少量の教師信号のみでも高精度の予測モデルが構築できる可能性がある. そこで本年度は,2次元画像から教師なしで3次元表現を学習する新しい生成モデルRGBD-GANを提案した.提案手法では,カメラの姿勢や深度などの3次元に関する教師情報がなくても,カメラのパラメータに応じた画像生成や深度画像の生成が可能である.本手法の特徴は,異なるカメラパラメータから生成された2つのRGBD画像に対し,明示的な3次元一貫性損失を用いている点にある.この損失はシンプルでありながら,カメラパラメータを条件とするあらゆる種類の画像生成に有効である. 画像の生成モデルに加えて,画像認識の高度化のために,画像に映る複数の物体の関係を認識する研究を実施した.最近の関連手法では,画像特徴に意味的特徴や空間的特徴を組み合わせることでこの課題に取り組んでいるが,それら特徴同士の関連付けが弱く,主に画像特徴に含まれる空間的な文脈が失われてしまう欠点を持つ.そこで本研究では,意味的特徴,空間的特徴,および画像特徴を強く関連付けることができる新しいアーキテクチャである「バウンディングボックス・チャンネル」を提案した.提案手法は,物体領域の特徴を効果的に強調し,オブジェクト内の関係をより良くモデル化することが可能である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度の目標の一つとして,3次元の教師データがなくとも2次元の画像のみから物体の3次元構造を推定する手法の構築をあげていた.実際に本年度は,2次元画像から教師なしで3次元表現を学習する新しい生成モデルRGBD-GANを提案し,目標を達成することができた.この成果は,深層学習を中心とした機械学習のトップ会議であるInternational Conference on Learning Representations (ICLR)に採択されている.また,想定外の進展として,画像認識の高度化のために,画像に映る複数の物体の関係を認識する新規手法を構築することができた.この成果はコンピュータビジョンのトップ会議であるEuropean Conference on Computer Vision (ECCV)でspotlightとして採択されている.
|
今後の研究の推進方策 |
今後は,引き続き生成モデルに着目して研究を進める.生成モデルを利用することで,今まで観測されていないデータを生み出すことが可能となり,少量の教師信号のみでも高精度の予測モデルが構築できる可能性がある.来年度も本年度に引き続きノイズにロバストな生成モデルの学習手法の研究を進める.特に,ブレやノイズ,圧縮などの画像劣化といった一般的な様々な種類のノイズの影響を極力受けないニューラルネットワークを用いた事前知識不要の生成器の学習手法を開発する.また,本年度は三次元生成モデルの学習手法の進捗があったために,この研究をさらに進展させることも考える.具体的には,三次元物体のもつ多関節のような幾何学的な拘束条件も含めて制御可能な3次元生成モデルの学習手法の構築を試みる.
|