研究概要 |
人間間の音声コミュニケーションを観測すると、音声の音響情報から様々なパラ言語情報,非言語情報を抽出することで円滑なコミュニケーションを実現していることが分かる。本研究では,パラ言語情報として発話意図に,また,非言語情報として話し手の知覚的年齢情報に着眼してその自動抽出を検討した。特に発話意図の抽出に関しては,音響音声学に立脚した音声工学とは完全に異なる観点からの音声モデリングを行なった。音声の物理現象の中に,話者・収録環境に依存しない普遍構造が存在することを実証しており,その普遍構造とパラ言語情報との関連について検討した。 話者認識技術に基づいてユーザの知覚的年齢の推定を試みた。子供音声・成人・老人音声データベース(合計男女約1000人)に対してその音声聴取時に感じる年齢を,大学生30名を対象として聴取実験によりラベリングさせた。その結果より,データベース話者各々に対して知覚的年齢分布が定義される未知入力話者に対する知覚的年齢推定は,未知話者とデータベース話者との距離を尤度という形で求め,各データベース話者に付随する知覚的年齢分布を,この尤度を用いて期待値化することで推定した。実験の結果,機械による推定値と人間による推定値間の相関は0.9となった。 音声ストリームを確率論的に状態系列として捉え,次に相対論的に状態間の関係のみに着眼し(構造化し),その関係を情報論的に定量化する。こうして構造化された音声は性別,年齢,話者,マイク,伝送特性などに一切影響を受けず話し手の脳から聞き手の脳にまで到達する。音響音声学が提供する音声表象は「歪んでいない音声は存在しない」と主張し,本研究で提案する新しい音声の物理表象では「人間が発声する限り音声は歪み得ない」と主張する構造を唯一歪ませるのがパラ言語情報であり,本研究では種々の感情・意図によって構造のサイズがどう変化するのか,及び構造そのものがどう歪むのか,について実験的検討を行ない良好な結果を得ることができた。
|