1997 Fiscal Year Annual Research Report
入力音声への適応機能を持つ連続音声認識に関する研究
Project/Area Number |
07458064
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 正三 東北大学, 大型計算機センター, 教授 (00089806)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 基之 東北大学, 大型計算機センター, 助手 (30282015)
曽根 秀昭 東北大学, 情報科学研究科, 助教授 (40134019)
|
Keywords | 連続音声認識 / 音素認識 / 適応機能 / 話者適応 |
Research Abstract |
本年度は入力音声への適応機能の一つとして,オンライン・リアルタイム話者適応を目指した研究を行った.すなわち,不特定話者音素標準パターンを利用して入力音声を予備認識した結果を利用して,音素標準パターンを修正し,話者適応を行う方法である.オンライン・リアルタイム話者適応の大きな問題点は,学習サンプルが極めて少ないことである.通常の話者適応では少なくとも1分程度の事前発声が必要であるが,オンライン・リアルタイム話者適応では,学習サンプルは,高々2〜3秒程度の音声である.また,音声サンプルの正しい認識結果も得られるとは限らないことである.本年度は,オンライン・リアルタイム話者適応法開発のための個人性の分析を主に行った.まず特徴パラメータとして,音声処理で良く用いられるケプストラムを用い,16次元のケプストラムパラメータが個人差によってどのような変動を示すかを分析した.母音については,ケプストラムの多次元空間上での平行移動でほぼ近似できることがわかった.従って認識された母音の各母音標準パターンから移動ベクトルを平均することによって,少ないサンプルから全母音の話者適応が可能なことが明らかになった.また,その際,移動方向も考慮することによって,誤認識の影響を除去できる可能性があることもわかった. 子音については,母音の移動方向との相関は見られなかったが,子音グループ,例えば無声破裂音や,有声破裂音のグループと限定すると,それぞれのグループで,同一方向への移動が観測された.
|
-
[Publications] S.MAKIKO, M.SUZUKI, A.HARADA: "Automatic Acquistion of Language Model using HMnet" Proc.Int.Conf Speech Processing'97. I. 47-54 (1997)
-
[Publications] 原田, 鈴木, 牧野: "離散型HMnetによる新聞記事からの文節モデルの獲得" 電子情報通信学会技術報告. SP97・24. 45-50 (1997)
-
[Publications] 阿部, 鈴木, 牧野, 阿曽: "音素毎の話者クラスタリングに基づく話者適応法" 電子情報通信学会技術報告. SP97・74. 41-46 (1997)
-
[Publications] 森, 阿曽, 牧野: "再現性を考慮した文字列に基づく統計的言語モデル" 電子情報通信学会技術報告. NLC97・47. 29-34 (1997)