1995 Fiscal Year Annual Research Report
入力音声への適応機能を持つ連続音声認識に関する研究
Project/Area Number |
07458064
|
Research Category |
Grant-in-Aid for General Scientific Research (B)
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 正三 東北大学, 大型計算機センター, 教授 (00089806)
|
Co-Investigator(Kenkyū-buntansha) |
曽根 秀昭 東北大学, 電気通信研究所, 助教授 (40134019)
安倍 正人 東北大学, 大型計算機センター, 助教授 (00159443)
|
Keywords | 連続音声認識 / 話者適応 / 発声速度 / 持続時間 / 予備認識 |
Research Abstract |
本年度は,入力音声の発話速度への適応に重点を置いて研究を行った.一般に,発話速度は,およそ平仮名に対応するモ-ラの長さで表すのが妥当と考えられている.モ-ラは拍の単位とも呼ばれ,発話のテンポやリズムを表すものと考えられている.本研究では,最初にモ-ラ長や音素長,母音長と発話速度の関係を解析した.その結果,発話速度は従来から言われてきた平均モ-ラ長の関数としてだけでなく,平均母音長の関数としても予測可能なことを明らかにした.音声認識の精度の観点から比較的安定に抽出できる平均母音長の1次関数として音素の持続時間を予測するモデルを提案した.男性5人,女性5人の発声した212単語データから1次関数の係数を定め,他の男性話者5人,女性話者5人の音声データに適用して誤差を評価した.予測式は音素別,先行音素別,後続音素別,先行音素別と後続音素別の加重平均,前後の音素環境別に立てた場合それぞれについて比較した.持続時間を予測する場合は,音素の前後環境を考慮して環境別に予測式を立てるのが有効であるが,これも精度の観点から,先行音素別と後続音素別に立てた予測式の加重平均で予測するのがもっとも有効であることを確かめた.予測誤差は,平均モ-ラ長の関数として予測式を立てるよりも平均母音長の関数として予測式を立てる方が少ないことがわかった.予測誤差は,20〜30msであった.次にこの方法に基づく単語音声認識システムを構築した.すなわち,最初に音素の予備認識を行い,そこから平均母音長を求める.平均母音長から予測された音素持続時間を基にして単語の標準パターンを再構成する.この標準パターンと入力音声とをDPマッチングで比較し認識する.標準パターンを再構成しない場合に比べ,1.7%の単語認識率の改善が得られた.
|
-
[Publications] 古賀,牧野,城戸: "ローカルピークによる単母音認識に及ぼす時間窓とリフタの影響" 日本音響学会誌. 51. 130-132 (1995)
-
[Publications] 伊藤,牧野: "拡張PHA法による連続音声認識のための単語予備選択" 電子情報通信学会論文誌D-II. J-78-D-II. 400-408 (1995)
-
[Publications] M、SUZUKI,S.MAKINO,H、ASO,H、SHIMODAIRA: "A New HM net Construction Algorithm Requiniag No Contextual Factors" IEICE Trens.INF,& SYST.E-78-D. 662-668 (1995)
-
[Publications] 鈴木,牧野,阿曽: "離散型HMnetの言語モデルへの適用" 電子情報通信学会技術研究報告. SP95-33. 65-72 (1995)
-
[Publications] 沖本,牧野,曽根: "確率尺度によるDPマッチングを用いた音素のセグメンテーション" 日本音響学会講演論文集. I. 165-166 (1995)
-
[Publications] 大坂,牧野,曽根: "予備認識結果に基づく持続時間予測の音素認識における効果" 日本音響学会講演論文集. I. 55-56 (1995)