研究課題/領域番号 |
15650028
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)
|
研究分担者 |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
キーワード | 音声認識 / 計算音声学 / グラフィカルモデリング / 話し言葉工学 / 隠れマルコフモデル / 話者適応化 |
研究概要 |
グラフィカルモデリングの手法を用いて、音声の内在構造を抽出することを目的とし研究を進めた。将来的には話し言葉の音声認識性能の向上を目標としている。本年度は、まず話し言葉音声における音声の特徴の把握、グラフィカルモデリングのツールの準備を行った。 従来、話し言葉音声では話速の違いにより認識性能が大きく異なることが報告されている。学会などの講演音声を収録した日本語話し言葉コーパス(CSJ)を用いて単語ごとの話速の違いを調査した。その結果、助詞、助動詞などの単語で話速の大きい単語が多く、かつ、それらの単語においては、継続時間長がたいへん短いため、隠れマルコフモデル(HMM)の状態と音声フレームとの対応付けが誤っている例が頻出していた。そこで、話速の大きい単語について、状態数の少ない別モデルを作成し、それを従来のモデルとあわせて認識する手法を試みた。より具体的には、出現頻度が大きく、20%以上の対応付け誤りがある2つの単語「いう」「あり」について、別モデルを作成した。CSJコーパスを用いて認識評価実験を行った結果、全体で0.3%とわずかながらも認識性能の向上を得た。別モデルを作成する単語をより増やした場合には残念ながら効果が見られなかった。また、それと平行して、ワシントン大学で開発されたGTK(グラフィカルモデルツールキット)を入手し、その実装を行った。 今年度は、グラフィカルモデルを用いた検証まで至らなかったが、来年度以降は、話速に伴うモデル構造の変化をグラフィカルモデリングでモデル化する手法を検討するとともに、その他の弁別素性、韻律などの情報を統合したモデリングを行う予定である。
|