Research Abstract |
話者不変の音声表象である音声の構造的表象は,音イベント群の個々の要素を絶対的に表象するのではなく,個々のイベント間のコントラストをf-divergenceで知られる変換不変量を用いて表象する新しい音声表象方式である。これを用いると,音声を全体的,包括的に表象することとなる。従来申請者らは,この構造表象を用いた音声認識を検討してきた。話者によって表象が変化しない点を利用し,非常に小数の話者のサンプルを用いて不特定話者音声認識の可能性について検討してきた。その結果,非常に限られたタスクではあるが,数千人の話者より構築された,音響的実体を用いる音響モデルよりも遥かに話者性に対する頑健性が高い音響モデルが構築された。 提唱している話者不変の音響表象は,音ストリームのダイナミクスを話者不変(即ち変換不変)の形で抽出することを意図しており,この考えは,音声のみならず様々なメディア処理に応用できるはずである。本研究の目的は,非音声・音響メディアにおける本表象の具体的な応用可能性を検討することにあるが,初年度は応用の範囲を音声メディアに限定し,種々の検討を行なった。まず,音声ストリームを分布列へと変換する前処理部に対して,「統計的に準最適な自動セグメンテーション」を定義し,繰り返し計算に基づいて,より最適な区分化が可能となるアルゴリズムを提案した。教師無し音素セグメンテーションをタスクとして提案アルゴリズムを評価し,従来方法よりも高い精度で音素境界の自動検出が可能となった。 次に構造表象の分類器に着目した。構造表象は,単語を表象するためのパラメータ次元数が容易に増加する。これは,個々の音響事象そのものを表象するのではなく,事象間のコントラストに着眼するためであり,事象数の2乗のオーダーで次元数が増加する。この次元数増加による識別率劣化を防ぐためにランダムサンプリングと線形識別分析(LDA)に基づく効率的な分類器の構成を試みた。その結果,認識率の劣化を最小限に抑えながら,計算時間を大幅に削減することに成功した。
|