画像認識の分野ではディープニューラルネットワーク(DNN)が盛んに用いられ,物体認識やシーン理解,画像復元などにおいて,従来のモデルベースの特徴量や学習手法を凌駕している.しかし,従来はデジタル画像として計測された後の画像認識パイプラインのデジタル層にのみ,DNNによる学習が用いられているにすぎなかった.本研究では,特徴量や認識器と共にハードウェア設計も学習により求める新しいフレームワークを提案し,ディープコンピュテーショナルフォトグラフィ(DCP)と名付ける.学習による最適化を画像認識パイプライン全体に適用することで,最適な画像特徴を求めるのみならず,光線情報をどのように計測するかという視覚システムの本質を探究することである.生物界では多様な視覚システムがその生物の生存環境やタスクがもたらす進化の結果として発現しているが,本研究は同様に人工視覚システム設計にそれを持ち込むものである.DCPでは,従来の画像特徴抽出のためのCNNのさらに下に,画素の時間露光タイミングを表現するサンプリングCNN層と集光特性を表現する物理CNN層をさらに加える.これらの画像認識パイプライン全体をDNNで表現し,シーンとラベルセットにより学習することで従来の認識および画像特徴が学習されると共に,カメラハードウェア設計をサンプリングCNN層および物理CNN層から学習により得る.その学習結果を基にカメラハードウェア試作を行い,学習によるカメラ設計の有用性を検証する.具体的には,圧縮ビデオセンシング および単一画像からの人の行動認識を事例タスクとして設定し,このタスクに最適化したカメラシステムを実現した.
|