研究概要 |
音声には年齢や性別などの非言語的な要因によって不可避的に歪みが混入する。その結果,大人と子供では音声の物理特性は大きく異なる。我々は物理的に異なる音ストリームに例えば「おはよう」という同一の情報を感覚する。従来の音声認識系では,これらの異なる音ストリームに内在する不変な情報を直接的に表象することは行なわず,ただただ音を集めて統計的にモデル化する試みが行なわれて来た。本研究では,構造不変の定理と呼ぶ数学的定理に基づく,話者やマイクに不変な音声表象を提案しており,これに基づいた音声認識系及びそのアプリケーションを構築することが目的である。本年は,パラメータの次元分割や,識別学習に基づく効率的な次元圧縮などについて検討し,また,アプリケーションという側面では発音学習応用において非常に実益性の高い成果を挙げることができた。パラメータ次元分割は,構造不変の定理が呈する「強すぎる不変性」問題を解くために導入された技術であり,制約付きでこの定理を利用する一手段を提供している。また,識別学習による次元削減はパラメータ数の増加に伴う「次元の呪い」問題を解くために導入された技術である。発音教育アプリケーションでは,学習者と教師の間の性別や年齢といった違いを回避することが可能となるため,教師を選ぶ発音教育支援,発音の様態のみに基づく(話者/性別に影響されない)学習者分類,更には,学習者の意欲向上に効果的なインタフェースの構築などを行なった。
|