Research Abstract |
本研究では, 線形・非線形を問わず, あらゆる可逆な変換・写像に対して不変な特徴量であるバタチャリヤ距離を用いた音声認識系について研究を行なった。主な成果は4つある。一つは1)不変量の一般式を導出したこと。即ち, 不変量はf-divergenceでなければならないことを数学的に証明したことである。二つ目は2)話者性による音声の違いを変換・写像として捉えた場合の, その写像関数の推定方法として現在広く使われているGMM法の欠点を明確にし, それを解決する新しい写像推定法を提案したこと, 3)f-divergenceに基づく表象は, 一般に強すぎる不変性を持つ。これは, 対象とする変換群にのみ不変性を示す表象技術を構築する必要があることを意味するが, 部分空間への分割, 及び部分空間での構造化を通してこの問題を解決したこと, 4)更には, 実用アプリケーションとして, 外国語発音評価システムを構築したことである。以下, 各々についてより詳細に示す。 バタチャリヤ距離が任意の可逆かつ連続的な変換に対しても不変であることを既に証明されていたが, 本研究では, バタチャリヤ距離の一般形である, f-divergenceも不変性を満たし, また, 不変な尺度はf-divergenceでなければならないという必要性までも証明することに成功した。f-divergenceはバタチャリヤ距離, カルバックライブラ距離など, 様々な分布間距離の一般形として位置づけられており, より本質的な意味に置いて, 不変表象の数学的基盤を構築することができた。 f-divergenceは変換不変であるが, 話者の変化はどのような変換関数としてモデル化されるのか? 従来この問題はGMMによる変換関数推定が広く行なわれているが, 本研究では, この従来法の欠点を明確にし, より正しい最適化手法を用いて変換関数推定を行なう手法を提案した。実験的にも提案手法を用いることで, 推定誤差を有意に削減できることを確認した。 その一方で, f-divergenceに基づく音声表象は, 不変性が極めて強く, 例えば, 異なる単語が等しいと判定されることが起こりえる。これは, 話者の違いも音韻の違いも同一の物理量を変形することが原因であり, 一種のトレードオフとなる。結局望まれるのは, 話者性だけに不変な制約付きの不変性である。本研究では, 話者性の変換がどのような変換群を構成するのかに着眼し, 限られた変換群のみに対して不変性が成立する手法を提案し, 実験的にその有効性を検証した。また, f-divergenceは事象と事象の差分(間隔)を測る尺度であるため, 事象がN個存在する場合は, N(N-1)/2個の測定量が得られ, パラメータ次元数が容易に増加する。これを削減するために, LDAやPCAの効果的導入をはかり, eigen structureと呼ばれる特徴量表現を提案するに至った。 更に, 実用アプリケーションとして, 外国語発音の評価システムを構築した。数年後には全ての公立小学校で英語教育が開始される。ここでは話す/聞く教育がメインとなるが, 例えば発音を指導できる教師は非常に限られている。このような情勢を考慮し, 子どもの声であっても頑健に処理できる音声の構造的表象を用いたCALL(Computer Aided Language Learning)システムの構築を行なった。600名以上の学習者の音声を評価し, 発音カルテと呼ばれる診断書の配布などを行なった。
|