Research Abstract |
本研究では,線形・非線形を問わず,あらゆる可逆な変換・写像に対して不変な特徴量であるバタチャリヤ距離を用いたメディア情報処理について研究を行なった。主な成果は4つある。一つは1)不変量の一般式を導出したこと。即ち,不変量はf-divergenceでなければならないことを数学的に証明したことである。二つ目は2)話者性による音声の違いを変換・写像として捉えた場合の,その写像関数の推定方法として現在広く使われているGMM法の欠点を明確にし,それを解決する新しい写像推定法を提案したこと,3)f-divergenceに基づく表象は,一般に強すぎる不変性を持つ。これは,対象とする変換群にのみ不変性を示す表象技術を構築する必要があることを意味するが,部分空間への分割,及び部分空間での構造化を通してこの問題を解決したこと,4)更には,音声以外の身体運動メディアに対しても構造表象の応用を検討したこと,である。以下,各々についてより詳細に示す。 バタチャリヤ距離が任意の可逆かつ連続的な変換に対しても不変であることを既に証明されていたが,本研究では,バタチャリヤ距離の一般形である,f-divergenceも不変性を満たし,また,不変な尺度はf-divergenceでなければならないという必要性までも証明することに成功した。f-divergenceはバタチャリヤ距離,カルバックライブラ距離など,様々な分布間距離の一般形として位置づけられており,より本質的な意味に置いて,不変表象の数学的基盤を構築することができた。 f-divergenceは変換不変であるが,話者の変化はどのような変換関数としてモデル化されるのか?従来この問題はGMMによる変換関数推定が広く行なわれているが,本研究では,この従来法の欠点を明確にし,より正しい最適化手法を用いて変換関数推定を行なう手法を提案した。実験的にも提案手法を用いることで,推定誤差を有意に削減できることを確認した。 その一方で,f-divergenceに基づく音声表象は,不変性が極めて強く,例えば,異なる単語が等しいと判定されることが起こりえる。これは,話者の違いも音韻の違いも同一の物理量を変形することが原因であり,一種のトレードオフとなる。結局望まれるのは,話者性だけに不変な制約付きの不変性である。本研究では,話者性の変換がどのような変換群を構成するのかに着眼し,限られた変換群のみに対して不変性が成立する手法を提案し,実験的にその有効性を検証した。また,f-divergenceは事象と事象の差分(間隔)を測る尺度であるため,事象がN個存在する場合は,N(N-1)/2個の測定量が得られ,パラメータ次元数が容易に増加する。この効果を削減するために,LDAやPCAの効果的導入をはかり,eigen structureと呼ばれる特徴量表現を提案するに至った。 更に,非音声メディアでの応用事例として,構音障害者支援のための「話す手」プロジェクトにおいて,構造表象を応用した。ここではデータグローブから得られる手(指)の姿勢に応じて音声が生成されるシステムの開発である。手の姿勢空間と音色の空間とに写像を張り,手を動かす事で様々な声を生成する。ここでも,構造表象の導入により最適姿勢の決定を行なう等,一定の成果を出すことができた。
|