研究課題/領域番号 |
10650358
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報通信工学
|
研究機関 | 福井大学 |
研究代表者 |
谷口 秀次 (1999-2000) 福井大学, 工学部, 助教授 (70115301)
小泉 卓也 (1998) 福井大学, 工学部, 教授 (80020204)
|
研究分担者 |
森 幹男 福井大学, 工学部, 助手 (70313731)
谷口 秀次 福井大学, 工学部, 助教授 (70115301)
|
研究期間 (年度) |
1998 – 2000
|
研究課題ステータス |
完了 (2000年度)
|
配分額 *注記 |
3,500千円 (直接経費: 3,500千円)
2000年度: 900千円 (直接経費: 900千円)
1999年度: 900千円 (直接経費: 900千円)
1998年度: 1,700千円 (直接経費: 1,700千円)
|
キーワード | サブワード / 学習ベクトル量子化 / 聴覚モデル / リカレントニューラルネットワーク / 隠れマルコフモデル / 話者独立性 / 話者適応 / ロバスト離散単語認識 / 連続音声認識 / サブワード境界抽出 / 不特定話者音声認識 / 雑音耐性 / サブワード境界検出 / 音声認識 / 不特定話者 / 話者依存性 / セグメンテーション / SCHMM / 連結HMM / マルチHMM |
研究概要 |
先に開発した離散分布HMM(DHMM)を認識ツールとするサブワード(SW)単位離散単語認識システムVQ-SWRを基礎として主に話者や環境騒音に対するロバスト性を向上させるために理論的・実験的研究を行い、特に以下のような成果を得た。 (1)VQ-SWRにて、認識用ツールとしてのDHMMの代わりに疑似連続分布HMMを用いた場合、認識精度のみならず話者依存性が従前のシステムに比べてかなり改善される。 (2)VQ-SWRに新たに適応化機能(「学習ベクトル量子化」機能と、その機能に「入力特徴ベクトルのサブワード類別に関する確率分布情報」を反映させてシステムを発声話者又は話者グループの音声に適応させる機能)を導入し、そのシステムFLH-SWRが、比較的定常的な雑音を重畳した音声及び不特定話者音声に対して適応化の効果があり、その認識精度と雑音耐性が従前のシステムに比して改善される。 (3)VQ-SWRにおけるスペクトル分析ツールDFT(離散フーリエ変換)の代わりに聴覚モデル、即ち以前に我々が開発した蝸牛殻の非線形フィードバックモデルNLF-COMを、またベクトル量子化の代わりにRNN(Recurrent neural network)を用いて新たなシステムCM-RN-SWRを開発した。このシステムでは、まずNLF-COMにより入力音声を周波数分析し、得られるパワースペクトル時系列情報をRNNでSWコード系列(SWC)に変換し、得られる単語のSWCを単語DHMMで単語認識する。このCM-RN-SWRでは、特定話者(5名の話者グループ)認識の場合、純音声及び疑似白色雑音重畳音声に対する認識精度が従来のシステムVQ-SWRの場合よりかなり改善される(5%及び55%)ことを確認した。 上述した研究成果を基に、本研究の最終目的((1)聴覚モデルの高度化、(2)その聴覚モデルを用い、それに整合のとれた不特定話者連続音声認識システムの開発とその高性能化)を完遂させるために、当該研究期間終了後も引き続き、更に深く研究を進める予定である。
|