動画像から人間にとって重要と思われる領域を抽出して効率の良い符号化を実現する手法を開発した。具体的には、文字の領域を抽出して文字領域を別途送信することで効率良い符号化を実現した。文字は高周波数成分が多く、周波数変換を利用した符号化で高圧縮すると低品質になりやすい。しかも人間にとって重要な情報を多く含んでいるため、文字の領域を高精細で伝送することは映像全体の品質に大きく寄与する。文字を検出し、文字をパラメータ(カテゴリ、フォント、色など)として送信する。一方文字部分を削除した背景のみの映像を自動生成し、HEVCの枠組みで符号化した映像を送信する。復号側でこれらを合成することで元の映像を復元する。実際に映像を用いて、符号量と映像品質の関係を表すレート・歪み曲線による定量評価、および平均オピニオン評定による主観評価実験を行い、提案手法の有効性を確認した。一方、動画像から顕著性を利用してオブジェクトを自動抽出し、動画全体とオブジェクト部分をそれぞれ異なる品質で圧縮することにより効率のよい符号化を実現する手法も開発した。視覚的注意の計算モデルである顕著性の考え方を導入し、人間の視覚特性を考慮して映像中の重要と思われる領域を特定する。さらに、グラフカットを用いたエネルギー最適化により、オブジェクト領域と背景領域を分離する。ハイビジョン・システム評価用標準動画像を用いた実験を行い、映像の品質とデータサイズを定量評価することで有効性を確認した。
|