1996 Fiscal Year Annual Research Report
入力音声への適応機能を持つ連続音声認識に関する研究
Project/Area Number |
07458064
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 正三 東北大学, 大型計算機センター, 教授 (00089806)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 基之 東北大学, 大型計算機センター, 助手 (30282015)
伊藤 彰則 山形大学, 工学部, 講師 (70232428)
曽根 秀昭 東北大学, 情報科学研究科, 助教授 (40134019)
|
Keywords | 連続音声認識 / 音素認識 / 発声速度 / 適応機能 / 持続時間 |
Research Abstract |
前年度は単語音声の分析が主であったが,本年度は分節発声について分析を行うとともに入力音声の発声速度を学習し,それに基づいて持続時間の変動の範囲を制限する音素認識法の有効性についても検討した.従来から日本語音声の発声速度は発声中のモ-ラ数で捉えられると考えられてきた.しかし,モ-ラの認識は長母音や二重母音の例に見られるようにかなり困難であり,認識に利用する場合はそれに代わる指標が求められていた.我々は,モ-ラの代わりに母音を用いることを提案し,平均母音長で発声速度を代表した.本年度は,文節発声に対して平均モ-ラ長と平均母音長の優劣の比較,長母音や二重母音を一つの母音として扱うかあるいは二つの母音として扱うかの比較を行った.音素ラベル情報をもつ音声データベースを対象に,平均母音長と平均モ-ラ長を求め,それを基に発声内の各音素の持続時間長を1次の線形予測式で推定し,誤差の大きさを比較した.その結果,発声速度の指標として平均モ-ラ長を利用する場合と平均母音長を利用する場合で大きな差はなく,また長母音や二重母音を区別せずに予測式をたてても大きな差がないことがわかった.さらに我々が提案した修正MLVQ2法による音素認識システムにこの学習機能を組み込んだ.すなわち,入力音声の発声速度とは無関係に多量のデータの分析から得られた各音素の持続時間の最大・最小値の制限を用いて音素認識を行い,その認識結果から平均母音長を計算し,さらにその平均母音長から各音素の持続時間の最大,最小を予測し,それに基づいて再度音素認識を行うシステムである.この最大・最小値は前述の最大・最小値より変動幅が小さくなる.この結果,音素認識率は81.6%から84.7%へと約3.1%の改善が得られた.
|
Research Products
(6 results)
-
[Publications] 鈴木,阿曽,牧野: "SSS-freeに基づくHMnetを用いた不特定話者音素認識" 日本音響学会講演論文集. 春季号. 143-144 (1996)
-
[Publications] 大坂,牧野: "発声速度に基づく音素持続時間予測を用いた音素認識" 信学技報. Vol. 96 No. 93. 1-6 (1996)
-
[Publications] 沖本,牧野: "可変長パターンと識別学習を用いた音素認識" 信学技報. Vol. 96 No. 93. 7-14 (1996)
-
[Publications] Y. Okimoto, S. Makino: "Phoneme Recognition using reference patterns constructed with discriminative training and DP matching" THE JOURNAL of the Acoustical Society of America. Vol. 100 No. 4. 2757-2757 (1996)
-
[Publications] M. Suzuki, S. Makino: "Acquisition of language models based on HMnet" THE JOURNAL of the Acoustical Society of America. Vol. 100 No. 4. 2791-2791 (1996)
-
[Publications] 牧野 正三: "東北大一松下単語音声データベース" 人文学と情報処理. 第12号. 56-59 (1996)