2012 Fiscal Year Research-status Report
Project/Area Number |
24720254
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
入部 百合絵 豊橋技術科学大学, 情報メディア基盤センター, 助教 (40397500)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 発音訓練 / 外国語教育 / 調音運動 |
Research Abstract |
本研究では,face-to-face における教師のように学習者の誤った調音の仕方を的確に指導する.そのため,音声からその調音特徴を抽出し,学習者の調音動作をCG アニメーションにより可視化する.正面の口唇と口蓋断面に対して,学習者の調音動作と正しい調音動作 を比較提示する.このように調音動作を視覚的に直接観察することは教育効果が高いと言われている.以上のことを実現するため,初年度である平成24年度は音声から調音動作の特徴量である調音特徴を精緻に抽出するアルゴリズムを開発する.具体的には以下の通りである. 人間は,子音(k, s, b, …)や母音(a, i , ..) を音声器官を制御しながら生成しており,生成に寄与する音声器官の動きを調音動作という.人間の調音動作を正確に可視化するためには,この調音動作の情報を詳細に取得する必要がある.そこで,本研究では調音位置や調音方法を示す属性(半母音,鼻音,無声音,有声音,持続性,破擦性,破裂性,舌端性,後舌母音,前方性,低母音,高母音など)を数値化(連続値)した調音特徴を音声から取得することを試みる.音声から調音特徴へ変換するために,音声スペクトルを多層ニューラルネットワーク(MLN)の識別器に通すことで調音特徴を獲得する.特に,調音特徴抽出アルゴリズムの課題であった強調/抑制および無音区間の歪を解決するために,ニューラルネットワーク1段目の出力に対し正規化処理を行った.これにより,5%の向上が見られ83%の調音特徴抽出精度を得た.また,音声に含まれる多様な変動成分(言語音声以外の性別や年齢による違いなど)が,調音特徴抽出精度に影響し,音素認識性能が飽和してしまう問題があったため,音素共通部分空間を結合重みとした調音運動MLNを改良した.これにより文中に含まれる音素の認識正解精度は約75.7%となった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当該年度の目標は音声から調音動作の特徴量である調音特徴を精緻に抽出するアルゴリズムを開発することにある.そこで,調音位置や調音方法を示す属性(半母音,鼻音,無声音,有声音,持続性,破擦性,破裂性,舌端性,後舌母音,前方性,低母音,高母音など)を数値化(連続値)した調音特徴を音声から取得するため,音声スペクトルを多層ニューラルネットワーク(MLN)の識別器に通すことで調音特徴を獲得する抽出器を開発した.また,調音特徴抽出精度95%を目標数値として取り組んだ.現在のところ,調音特徴系列の強調/抑制および無音区間の歪を解決するために,ニューラルネットワーク1段目の出力に対し正規化処理を行ったところ,5%の向上が見られ83%の調音特徴抽出精度を得た.また,音声に含まれる多様な変動成分(言語音声以外の性別や年齢による違いなど)が,調音特徴抽出精度に影響し,音素認識性能が飽和してしまう問題があったため,音素共通部分空間を結合重みとした調音運動MLNを改良した.これにより文中に含まれる音素の認識正解精度は約75.7%となった. 以上のように,調音特徴抽出アルゴリズムを開発し,目標数値も9割近く達成したため,研究の達成度はおおむね順調と判断した.
|
Strategy for Future Research Activity |
今後は初年度に目標数値を達成できなかった調音特徴抽出精度の向上を目指し,線形判別分析(Linear Discriminant Analysis; LDA)やカーネルトリックを用いた非線形写像など,双対空間を求める手法を比較検討する予定である. また,人間の自然な調音動作を表現するため,実際に人間が発話した様子を撮影したMRI(磁気共鳴画像装置)に基づきアニメーションを生成する.始めに,初年度に開発した調音特徴抽出手法に基づき,複数人の発話を撮影したMRI データに含まれる音声を調音特徴に変換する.そして,MRI 画像に映し出されている各調音器官の輪郭に沿って特徴点(座標ベクトル)を検出する.次に,調音特徴を入力とした識別器に先の特徴点を教師信号として与える.これにより,学習者の音声から抽出した調音特徴を特徴点を学習した識別器へ通すことで,学習者の調音動作に適した特徴点を獲得する.アニメーションはこの特徴点をもとに自動生成する.以上の手法により,今後は調音動作アニメーションを自動的に生成する調音アニメ生成器を開発する(目標数値:実際に発話した様子を撮影したMRI データとの相関係数0.80 以上).
|
Expenditure Plans for the Next FY Research Funding |
2年目の平成25年度は調音動作アニメーションを生成するために,人間の調音器官の運動を測定する必要がある.そのため,発話運動測定装置のレンタル代,データ収集のための打ち合わせ旅費,および被験者への謝金が発生する.また,調音動作アニメーションの生成および実験用にPCを購入する.初年度の研究成果を発表するために国内および国外の旅費が必要であり,海外発表のための論文に対する校閲代も発生する.
|
Research Products
(16 results)