グラフィカルモデリングを用いた話し言葉音声認識の研究

研究課題

研究課題/領域番号	15650028
研究種目	萌芽研究
配分区分	補助金
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)
研究分担者	古井貞煕東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
研究期間 (年度)	2003 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	2,900千円 (直接経費: 2,900千円) 2005年度: 800千円 (直接経費: 800千円) 2004年度: 1,200千円 (直接経費: 1,200千円) 2003年度: 900千円 (直接経費: 900千円)
キーワード	音声認識 / 計算音声学 / グラフィカルモデリング / 話し言葉工学 / 隠れマルコフモデル / 話者適応化
研究概要	グラフィカルモデリングの手法を用いて、音声の内在構造を抽出することを目的とし研究を進めている。これは、従来のHMMに代表される画一的な認識単位をベースとしたモデルより、より自由度の大きいモデルを用いることで、音声の様々な現象に対応することを目的としたものである。我々は、グラフィカルモデルの中でも、時系列データに対応したダイナミックベイジアンネットワークを音声に応用する研究を進めている。モデル化の対象は話し言葉音声とし、その音声認識性能の向上を目標としている。話し言葉音声は、読み上げ音声とは異なり、一般に話速が大きく、また、調音結合(発声のなまけ)が大きい。そのため、従来の隠れマルコフモデル(HMM)を用いた音声認識では、認識性能が70%と、読み上げ音声と比べると性能が劣る。その改善が課題である。初年度は、話し言葉音声における音声の特徴の把握、グラフィカルモデリングのツールの準備を行った。次年度は、実際にグラフィカルモデリングツールを用いて調音結合のモデル化を行い、その性能を評価した。調音器官の運動を主に表す弁別素性に着目し、グラフィカルモデリングの手法を用いて音素をそれら弁別素性の束として表したモデルを用いて、認識性能をあげることを試み、若干の性能向上を得た。今年度は、それに加え、基本周波数(ピッチ)の情報を用いて、認識性能の向上を図った。そこでは、基本周波数情報を量子化し、異なるフレーム間の相関も考慮することにより、有声・無声の区別や、イントネーションの情報を反映したモデル化を行っている。評価実験には、日本語話し言葉コーパスを用い、話し言葉における性能を評価した。評価実験の結果、従来手法と比べ、少ないモデルパラメータ数で、より高い認識性能を示すことが判明し、提案手法の有効性が確認された。

報告書

(3件)

研究成果
(7件)

すべて 2006 2005 2004 その他

すべて雑誌論文 (6件) 文献書誌 (1件)

[雑誌論文] 基本周波数情報のグラフィカルモデリングによる音声認識2006
- 著者名/発表者名
  小林隆二, 篠田浩一, 古井貞煕
- 雑誌名
  
  日本音響学会春季研究発表会 I(未定)
- 関連する報告書
  2005 実績報告書
[雑誌論文] 基本周波数情報を用いたダイナミックベイジアンネットワークによる音声認識2006
- 著者名/発表者名
  小林隆二, 篠田浩一, 古井貞煕
- 雑誌名
  
  電子情報通信学会技術報告 Vol.105 No.573(未定)
- NAID
  110004680246
- 関連する報告書
  2005 実績報告書
[雑誌論文] 弁別素性のグラフィカルモデリングによる音声認識2005
- 著者名/発表者名
  小林隆二, 篠田浩一, 古井貞煕
- 雑誌名
  
  日本音響学会春季研究発表会 I(未定)
- NAID
  10018037039
- 関連する報告書
  2004 実績報告書
[雑誌論文] 音声認識のための話者適応化技術2004
- 著者名/発表者名
  篠田浩一
- 雑誌名
  
  電子情報通信学会論文誌D-II J87-D-II No.2
  
  ページ: 371-386
- 関連する報告書
  2004 実績報告書
[雑誌論文] Robust acoustic modeling for speech recognition2004
- 著者名/発表者名
  Koichi Shinoda
- 雑誌名
  
  Technical Report of IEICE SP2004-82
  
  ページ: 7-12
- NAID
  110003278779
- 関連する報告書
  2004 実績報告書
[雑誌論文] 音声情報処理技術の最先端:2.統計的手法を用いた音声モデリングの高度化とその音声認識への応用2004
- 著者名/発表者名
  篠田浩一, 篠崎隆宏
- 雑誌名
  
  情報処理 45
  
  ページ: 1012-1019
- NAID
  110002769589
- 関連する報告書
  2004 実績報告書
[文献書誌] 篠田浩一: "音声認識のための話者適応化技術"電子情報通信学会論文誌D-II. J87-D-II No.2. 371-386 (2004)
- 関連する報告書
  2003 実績報告書

グラフィカルモデリングを用いた話し言葉音声認識の研究

研究代表者

篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)

2,900千円 (直接経費: 2,900千円)

報告書

研究成果

[雑誌論文] 基本周波数情報のグラフィカルモデリングによる音声認識2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 基本周波数情報を用いたダイナミックベイジアンネットワークによる音声認識2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 弁別素性のグラフィカルモデリングによる音声認識2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 音声認識のための話者適応化技術2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Robust acoustic modeling for speech recognition2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 音声情報処理技術の最先端:2.統計的手法を用いた音声モデリングの高度化とその音声認識への応用2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[文献書誌] 篠田浩一: "音声認識のための話者適応化技術"電子情報通信学会論文誌D-II. J87-D-II No.2. 371-386 (2004)

関連する報告書

篠田浩一東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)