研究概要 |
音声に含まれる個人的特徴の抽出は,音声認識の話者適応化,個性的な自然音声の合成,人物認識などの研究の中で最も基本的な研究課題である。本研究では,音声の個人的特徴と発話時の顔の特徴を高精度で抽出し,総合的あるいは選択的に活用し,端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを設置した視聴覚融合センシングシステムの開発,音声生成過程の解析に基づく個人性情報の抽出を研究目的とする。本研究の成果は以下の通りである。 (1) マイクロホンアレイ信号とカラー動画像を同期を取って計測するシステムを構築した。 (2) マイクロホンアレイ信号の時間差分を用いた音源定位システムを開発した。実音声を用いた音源定位実験を行い,端末から50cm離れた音源位置を誤差2.3cm以内で推定することに成功した。 (3) 整合フィルタにより特定話者に対して音声を強調させる話者依存型音声強調法を考案した。周囲雑音が存在する環境において特定話者の実音声強調実験を行い,登録した話者の音声に対し,ホルマント周波数が精度よく推定できる事を示した。 (4) 口唇領域の動画像のフレーム間差分演算により動的特徴を抽出し,口唇部の変動パターンより単語を認識する手法を考案した。都道府県名の単語認識を行ない,認識率97%を得た。また,認識率が話者に大きく依存する単語が存在し,個人の特徴が最もよく現れる単語は,話者により異なることが明らかになった。 (5) 磁気共鳴映像法(MRI)を用いて摩擦音生成時の声道形状の計測に成功した。この三次元声道内の呼気流を有限要素法で推定し,摩擦音生成シミュレーションに成功した。 以上の研究成果を踏まえ下記の課題も明らかになった。 (1) 音声分析技術の高度化には,音声生成過程の解析が必要であり,磁気共鳴影像法(MRI)により計測した三次元声道内の音圧分布や呼気流の速度分布の解析が必要であること。 (2) 人物認識実験では,音声による認識結果と顔画像の結果が異なる場合も認めらた。このようなメディア間の認識結果の矛盾やインターラクションの解析の必要性も明らかになった。
|