グラフィカルモデリングを用いた話し言葉音声認識の研究
Project/Area Number |
15650028
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Allocation Type | Single-year Grants |
Research Field |
Perception information processing/Intelligent robotics
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥2,900,000 (Direct Cost: ¥2,900,000)
Fiscal Year 2005: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2003: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 音声認識 / 計算音声学 / グラフィカルモデリング / 話し言葉工学 / 隠れマルコフモデル / 話者適応化 |
Research Abstract |
グラフィカルモデリングの手法を用いて、音声の内在構造を抽出することを目的とし研究を進めている。これは、従来のHMMに代表される画一的な認識単位をベースとしたモデルより、より自由度の大きいモデルを用いることで、音声の様々な現象に対応することを目的としたものである。我々は、グラフィカルモデルの中でも、時系列データに対応したダイナミックベイジアンネットワークを音声に応用する研究を進めている。モデル化の対象は話し言葉音声とし、その音声認識性能の向上を目標としている。話し言葉音声は、読み上げ音声とは異なり、一般に話速が大きく、また、調音結合(発声のなまけ)が大きい。そのため、従来の隠れマルコフモデル(HMM)を用いた音声認識では、認識性能が70%と、読み上げ音声と比べると性能が劣る。その改善が課題である。 初年度は、話し言葉音声における音声の特徴の把握、グラフィカルモデリングのツールの準備を行った。次年度は、実際にグラフィカルモデリングツールを用いて調音結合のモデル化を行い、その性能を評価した。調音器官の運動を主に表す弁別素性に着目し、グラフィカルモデリングの手法を用いて音素をそれら弁別素性の束として表したモデルを用いて、認識性能をあげることを試み、若干の性能向上を得た。今年度は、それに加え、基本周波数(ピッチ)の情報を用いて、認識性能の向上を図った。そこでは、基本周波数情報を量子化し、異なるフレーム間の相関も考慮することにより、有声・無声の区別や、イントネーションの情報を反映したモデル化を行っている。評価実験には、日本語話し言葉コーパスを用い、話し言葉における性能を評価した。評価実験の結果、従来手法と比べ、少ないモデルパラメータ数で、より高い認識性能を示すことが判明し、提案手法の有効性が確認された。
|
Report
(3 results)
Research Products
(7 results)