研究課題/領域番号 |
20H04216
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
児玉 和也 国立情報学研究所, コンテンツ科学研究系, 准教授 (80321579)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
14,820千円 (直接経費: 11,400千円、間接経費: 3,420千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2021年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
2020年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
|
キーワード | 3次元画像 / 光線 / 多眼 / 圧縮 / 符号化 |
研究開始時の研究の概要 |
超多眼映像は光線全体を稠密に取得再現し、単なる両眼視を越え同時に多数のユーザに対し様々な視点から対象の観察を可能とする。一方、そのデータ量は著しく膨大で、高能率圧縮による簡便な蓄積や伝送が新たに重要な課題となる。
本研究では、超多眼映像を動的な稠密光線場とみなすことで、撮影対象の3次元分布と良く対応した焦点ボケ画像群を介し、その本質的冗長性をまとめて抽出削減する圧縮方式を確立する。
具体的には、一般的な2次元動き補償等をバラバラに組み合わせる既存の多視点映像符号化と異なり、強く構造化された動的稠密光線場に応じた、焦点ボケ画像群の時系列上での3次元動き補償への統合などを様々に導入していく。
|
研究実績の概要 |
代表者らは従来から静的な稠密光線場の焦点ボケ構造を介した高能率符号化を提案しており、本研究では動的な稠密光線場である超多眼映像の圧縮にこれを拡張することを目的とする。具体的には、撮影対象の3次元分布と良く対応した焦点ボケ画像群上で、視差情報全体が統合的に表現可能な奥行き方向も合わせた動き補償を導入する超多眼映像の高能率符号化を提案し、その軽量化や高速実装による実時間伝送まで含め実証的評価を行う。当該の枠組に加え、基盤となる焦点ボケ画像群への変換の最適化やその残差の符号化に関わるフィルタ設計等も包括的に検討し、視点配置を前提にすることなく動き補償や視差補償をバラバラに組み合わせる形で標準化が進む既存の多視点映像符号化の単なる拡張ではない、強く構造化された動的稠密光線場の本質的冗長性をまとめて抽出削減する圧縮方式を確立する。
本年度は、以上に述べた研究目的の達成に向け、令和3年度までに圧縮性能の実質的向上に注力した超多眼映像の符号化方式について、リアルタイム伝送への展開も考慮し、当該の符号化アルゴリズムの軽量化に取り組んだ。実際、実用的な圧縮符号化手法を構成するには、必要となる演算量の抑制も常に考慮しなければならない。とくに、実時間プロトタイプの構築に向け、シーンフロー推定部など提案する符号化を構成する各要素に応じ順次、十分な高速性と圧縮品質を維持する実装の検討を進めた。
また、動き補償部のみならず、符号化側と復号側で共通となる光線場の予測について、非圧縮における同様の処理の実時間性を維持したまま、良好な圧縮品質が得られるよう、令和3年度までに提案したポストフィルタ等の組み込みも検討するなど、符号化の各要素を適宜、多数のGPUを搭載した計算サーバ上へ実装、それぞれのリアルタイム性を検証することで、超多眼の撮像系等と組合せた実時間プロトタイプの構成法を明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
超多眼映像は光線全体を稠密に取得再現し、単なる両眼視を越え同時に多数のユーザに対し様々な視点から対象の観察を可能とする。一方、そのデータ量は著しく膨大で、高能率圧縮による簡便な蓄積や伝送が新たに重要な課題となる。本研究では、超多眼映像を動的な稠密光線場とみなすことで、撮影対象の3次元分布と良く対応した焦点ボケ画像群を介し、その本質的冗長性をまとめて抽出削減する圧縮方式を確立する。具体的には、一般的な2次元動き補償等をバラバラに組み合わせる既存の多視点映像符号化と異なり、強く構造化された動的稠密光線場に応じた、焦点ボケ画像群の時系列上での3次元動き補償への統合などを様々に導入していく。
実際、こうした研究課題に対し、動き補償やフィルタ処理など前年度までに基本的な枠組を整備した符号化方式を前提として、本年度は、まず、提案する超多眼映像圧縮処理で必須となる、時系列上の焦点ボケ画像群の間での3次元動き補償に関し、あらたに3次元シーンフローの推定を導入、これまでの単純な3次元ブロックマッチングの演算量を大幅に削減した。代表者らは既に、一般的なオプティカルフロー推定を3次元の焦点ボケ画像群上に拡張することで、実時間で対象全体の3次元シーンフロー推定に成功していたが、こうしたフロー推定結果を手がかりに、圧縮品質を維持しつつ提案方式の最も本質的な構成要素である3次元動き補償の軽量化を実現した。また、本研究課題で取り扱う超多眼映像は、既存の標準的なデータセットが存在していないが、これも令和3年度を中心に構築した、単眼とミラー群の統合に基づく仮想カメラアレイにより、十分な品質の超多眼映像を取得することで、従来のように合成画像等での評価にとどまらない実証的な検討を進めた。
以上から、本研究課題の進捗に関し、現在まで、おおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
今後は、令和4年度までで提案した符号化方式について、各構成要素の成果を組み合わせ、超多眼映像に対する圧縮符号化システムのプロトタイプを構築、あらたに蓄積を介することのないリアルタイム伝送の実証的検討までを行う。とくに、単なる符号化処理のみならず、撮像系、伝送系、さらに表示系をも統合したプロトタイプとして、動的な稠密光線場である超多眼映像の簡便な共有を可能とする。
具体的には、まず、撮像系において、単眼とミラー群の統合に基づく仮想カメラアレイの利点を最大限に活用、4K程度の単眼カメラを介し直接に GPU上へ稠密な光線情報を一括して入力する。こうした方式は、従来のカメラアレイから得られる各視点が独立した超多眼映像と異なり、稠密光線情報への集約を電子的に行う必要がない。実際、撮像系の出力がミラー群により 1台の実カメラへ光学的に単一化されることで、煩雑で一定の遅延が避けられない多眼カメラ間の同期機構を排し、さらに、運用上のコストも大幅に抑えることができる。
一方、こうして GPU上にコンパクトに取り込まれた稠密光線情報も、そのまま伝送しようとすれば莫大な帯域を要する。そこで、これをただちに提案する符号化方式により圧縮、リアルタイムでの分散共有を実現する。この際、撮像系となる仮想カメラアレイから入力された取得情報に対し様々な幾何変換等が前処理として必要となるものの、これらは元来 GPUが極めて効率的に実行可能であり、令和4年度までの検討により大幅に高速化された提案する圧縮符号化方式とともに、動的な稠密光線情報を実時間でネットワーク上へ送出するプロトタイプを構成する。最終的には、通常の 2次元ディスプレイや各種の立体視ディスプレイ等、受信側の様々な表示系に対し、伝送された光線情報を提示することで、動的な稠密光線場を簡便に共有する超多眼系プロトタイプの構築、実証的検討に取り組む。
|