研究課題/領域番号 |
21H04893
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
西野 恒 京都大学, 情報学研究科, 教授 (60814754)
|
研究期間 (年度) |
2021-04-05 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
41,730千円 (直接経費: 32,100千円、間接経費: 9,630千円)
2024年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2023年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2022年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2021年度: 11,570千円 (直接経費: 8,900千円、間接経費: 2,670千円)
|
キーワード | コンピュータビジョン / 知覚情報処理 / 知能情報処理 / コンピュテーショナルフォトグラフィ / 光学的画像理解 / 逆問題 |
研究開始時の研究の概要 |
本研究では、画像理解を研究対象に据え、物理則等の演繹的モデルとデータ駆動の帰納的学習を融合した両者の強みを最大限に引き出す新たな手法の導出を追究する。特に、 「光学的画像理解」と呼ぶ画像からの実世界物体や光景の反射特性、幾何形状、光源状況を含む光学的構成要素の推定を研究射程とし、応用の効く人工知能基盤技術として、様々な不定性の高い逆問題を効率良く精確に推定する一連の手法の確立を目指す。
|
研究実績の概要 |
今年度は、光学的画像理解の根底をなす非凸双線型最適化問題を学習された最適化により解くことを目指し、物体の姿勢推定を行う新たな深層学習モデルの導出を行なった。このモデルは徐々に増える複数視点から物体の姿勢の推定を行う際に、ネットワーク自体が姿勢最適化をend-to-endに学習し、視点に応じた情報の重みづけを行い、より少数の視点から遮蔽に頑健に物体姿勢を推定するものである。また本研究を基盤として、人間の指差しの認識と3次元方向推定を行う手法の導出を行なった。この研究においては単一視点映像であるものの、人体の関節点位置等の複数の特徴量を統合的にネットワークで扱い重み付けしながら方向推定に結びつける点は、非凸双線型最適化問題を学習された最適化を行うことに他ならず、互いに深く関連する。
さらに、空間における光の伝搬自体をボリュームとして表現する深層学習モデル(Neural Radiance Field)において、屈折を表現するために解析的な屈折面表現を織り込む手法の導出を行なった。これにより、水槽における魚を水槽外に設置されたカメラから自在に合成することなどが可能になる。本手法は、NeRFと解析的光学モデルの融合を行なった研究であり、本課題の成果を体現するものである。
また、並行して計画課題である反射と幾何の統合的表現の導出の一貫として、新たな反射モデルの導出を行なった。本モデルは同一の幾何構造における光の挙動を丁寧に追うことにより、可視光のみならず偏光も同一のモデルで表現する新たな物理ベースの反射モデルであり、これを用いて、物体の形状や反射特性の復元をより頑健かつ正確に行えることを示した。本研究成果は初めての統一的反射モデルとして高く評価され、当該分野トップ国際会議において発表を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初計画していた、非凸双線型最適化問題を学習された最適化の導出を計画通り実現しただけではなく、物体表面における可視光反射と偏光反射の両者を統一的に表現する新たな反射モデルの導出を行うなど、計画以上の成果を上げることができた。これらの成果は、全て当該分野トップ国際会議において発表済みであり、今後の計画研究の基盤技術ともなる。これらの研究を通して、光学的解析のみならず人物行動や物体姿勢など、重要課題を超えて基盤となりうる「物理的演繹モデルと帰納的深層学習の融合」を行えている。
|
今後の研究の推進方策 |
本年度は、昨年度に続き、光学的画像理解の根底をなす非凸双線型最適化問題を学習された最適化により解くことを目指す。すなわち、非線形最適化問題の勾配方向とステップ長を出力する深層ネットワークを考え、さらにこれを任意の物理的制約に起因する潜在空間等の拘束を敵対的事前分布等とし て組み込み、かつ全体として凸化されるようにした上でネットワーク自体を合成データを活用し end-to-end で学習する。特に人体の姿勢推定を主題として追究し、Transformerのアテンション機構を活用することにより深層最適化モデルの導出を試みる。また、これにより、当初計画の課題の一つである素材認識等において最も認識精度および粒度を高める視線方向と撮像枚数を自動的に決定する手法の導出をおこなう。すなわち、認識ネットワークとしてTransformer等を考えた場合に、自動的に最も認識精度を高める撮像方向を求める深層学習モデルの導出を行う。これにより、素材や物体の認識のみならず、人体や物体の姿勢推定への応用も探究する。さらに、素材認識の枠組みにおいて、生成モデルにより得られる特徴量を用いた識別を試みる。
|