Research Abstract |
音声から言語情報・パラ言語情報を抽出する場合,年齢/性別/収録聞きの違いによって付与される音響歪みは純粋なノイズとなる。従来これらのノイズに対処するために,多量の音声でイータを収集し,それらから統計的な音響モデルを構築していた。本研究では,集めることで解決を図るのではなく,これらのノイズを表現する次元を消失した音声モデリング(音声アフォーダンスを数学的に定式化することで解決を図った。 音声ストリームを分布系列に変換し,時間的に離れた分布対を含め、全ての二分布距離をバタチャリヤ距離と呼ばれる距離尺度を用いて計算する。全ての2事象間距離を求める(即ち距離行列を算出する)ことは,幾何学的な構造を規定することに等しいが,距離尺度としてバタチャリヤ距離を用いることで,空間を歪ませて構造不変性を保証している。 先行研究では,孤立母音の系列を対象として上記音声表象の妥当性を検討したが,本年度はこれを連続音声へと拡張して検討を行なった。この場合,状態数の増加に伴う問題が発生するが,構造不変性を部分空間においても仮定することで認識率の大幅な向上を実現した。具体的には,日本語5母音を並び替えて構成される120単語認識をタスクとして実験を行ったところ,単語単位では93%,母音単位では97%という率が得られた。これは,音声の絶対的な物理量を一切用いずに,単語が認識でき,かつ,母音を同定することが可能であることを示す。従来,音の同定には音の絶対的な特徴量を用いて来たが(故に,音響歪みが混入する),これとは全く異なる枠組みにおいて,音声の認識が可能であることを示している。この場合,モデル学習に必要な話者数は極めて少数でよい。 なお,本手法は孤立音の同定は原理上できなくなる。つまり,音の同定を行なうことなく,単語の同定を行なうアルゴリズムとなる訳だが,似た症状を呈する障害として発達性dyslexiaがある文字の読み書きにのみ困難を示す症状である。本研究は,この症状を物理的に説明するモデルを提供する可能性があり,言語障害関係の学会において様々な議論を重ねることができた。
|