研究概要 |
音声が運ぶ情報は大きく,言語的情報,パラ言語的報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。 先行研究において,本構造表象のみを用いた孤立単語認職システムを構築した。例えば単語として日本語5母音を入れ替えて構成できる120単語を語彙セットとした場合は,HMMを用いた孤立単語認識システムよりも遙かに高い頑健性を示すことができた。これ}さ,構造表象に基づく音声認織は,明示的に適応処理を行わなくても,適応処理を行った後の音響照合スコアを推定可能である点が有効に寄与した結果である。しかし,子音が入り,かつ,単語長が単語によって変わってくると,構造表象の頑健性が十分に生かし切れず,十分な精度を出すには至っていなかった。この点を考慮し,本年度は構造に基づく音声認識系と従来の音声認識系との融合を計った。音響事象間のコントラストをモデル化対象とする構造と,音響事象そのものをモデル化対象とする従来法とを組あわせ,「隠れ構造モデル」として提案した。 また,この構造表象を用いて外国語学習者の発音を表象することで,学習者の年齢・性別に影響を受けない発音表象が得られるが,子音まで考慮した発音構造に対して,発音評定に必要なコントラスト(エッジ)を事前に習得しておくことで,母音・子音に寄らず頑健な発音習熟度推定が可能となることを示した。発音構造を用いることで,一人の教師音声のみを使って,大人,子供と体格の違いを超えて頑健に発音習熟度の推定が可能となった。一方従来のHMMの事後確率を用いる手法では,学習者の身長によって大きく精度が下落する。これを防ぐにはHMMを各話者に適応する必要があるが,この場合,発音の評価というよりも,声帯模写の評価となってくるため,教育学的には不適切な技術開発となってくると言える。構造表象の場合は,そのような問題は原理的に生じ得ない。
|