研究概要 |
本研究では,face-to-face における教師のように学習者の誤った調音の仕方を的確に指導する.そのため,音声からその調音特徴を抽出し,学習者の調音動作をCG アニメーションにより可視化する.正面の口唇と口蓋断面に対して,学習者の調音動作と正しい調音動作 を比較提示する.このように調音動作を視覚的に直接観察することは教育効果が高いと言われている.以上のことを実現するため,初年度である平成24年度は音声から調音動作の特徴量である調音特徴を精緻に抽出するアルゴリズムを開発する.具体的には以下の通りである. 人間は,子音(k, s, b, …)や母音(a, i , ..) を音声器官を制御しながら生成しており,生成に寄与する音声器官の動きを調音動作という.人間の調音動作を正確に可視化するためには,この調音動作の情報を詳細に取得する必要がある.そこで,本研究では調音位置や調音方法を示す属性(半母音,鼻音,無声音,有声音,持続性,破擦性,破裂性,舌端性,後舌母音,前方性,低母音,高母音など)を数値化(連続値)した調音特徴を音声から取得することを試みる.音声から調音特徴へ変換するために,音声スペクトルを多層ニューラルネットワーク(MLN)の識別器に通すことで調音特徴を獲得する.特に,調音特徴抽出アルゴリズムの課題であった強調/抑制および無音区間の歪を解決するために,ニューラルネットワーク1段目の出力に対し正規化処理を行った.これにより,5%の向上が見られ83%の調音特徴抽出精度を得た.また,音声に含まれる多様な変動成分(言語音声以外の性別や年齢による違いなど)が,調音特徴抽出精度に影響し,音素認識性能が飽和してしまう問題があったため,音素共通部分空間を結合重みとした調音運動MLNを改良した.これにより文中に含まれる音素の認識正解精度は約75.7%となった.
|