研究概要 |
放送メタデータの階層的構造化を実現するため、ジャンルや登場人物等のメタデータを変数にし、多数の独立頂点集合により構成される有向グラフを構築した。顔分類を実現するため、メタデータ有向グラフによるネットワークをもとに、顔認識をネットワークの経路を伴った因果関係の発生確率を定量的に予測する課題に帰着させ、放送メタデータ・ベイジアンネットワークに基づいた新たな顔分類法を提案した。視覚特徴に基づいた顔画像照合の実験は、Labeled Faces in the Wild Home (LFW)データセットを対象に行った。提案した特徴選択法は、クラス間の分離の判別力を最大化にするための特徴量投影軸を学習することができるため、照明条件や姿勢等の環境変数の変動における影響をより低く抑えられることが本実験で実証された。放送映像メタデータに基づいた顔分類を評価するために、2011年に放送された10個のテレビ番組を収集した。本データセットは、284本の放送映像を含み、映像に登場した人物の数が176人となり、顔画像系列の数が15,158個となる。その中から、7,441個の顔画像系列を学習データとし、残った7,717個を実験データとする。放送メタデータを利用した場合の顔分類は、視覚特徴のみに基づいた顔分類法より、11.4%も高い平均適合率を実現したことがわかった。また、実験結果から、ドラマや落語等の放送番組に対して放送メタデータの顔分類に与える有用な影響が少ない一方、ニュースやスポーツ、バラエティ等の放送番組に対しては放送メタデータが顔分類のパフォーマンスを遥かに向上させることができたことも本実験で実証された。
|