2012 Fiscal Year Annual Research Report

高精度な話し言葉認識技術の開発

Research Project

Project/Area Number	22500144
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 理工学研究科, 教授 (50359569)
Project Period (FY)	2010-04-01 – 2013-03-31
Keywords	話し言葉音声認識 / 音響モデル / 言語モデル / 教師無し話者適応 / 単語グラフ統合 / クロスバリデーション
Research Abstract	1. 音響モデルの高精度化による性能向上：　話し言葉を対象とする大語彙連続音声認識(LVCSR)システムの高性能化において特に効果があると考えられる，音響モデルの精度向上の検討を行った．具体的には話者性への対処のため話者クラスモデルについて検討を行った．従来話者クラスタリングを行う場合，１話者が複数のクラスに所属することを認めない方法で検討を行っていたが，この方法ではクラス数を増加した場合，１クラスに用いることのできる学習データ量が減少し，逆に性能が劣化するという問題があった．この問題に対処するために複数クラスへの所属を認め話者クラスモデルを作成したところ，LVCSRにおいて非常に効果が高いことが分かった． 2.システム統合による性能向上：　LVCSRで性能向上を図るための一つの手段として，システム統合が挙げられる．複数の性質の異なる認識システムの認識結果を統合する手法であり，CNCやROVERなどの方式が提案されている．本研究では，従来あまり検討されていない，時間情報も利用できる単語グラフ統合を検討した．上記話者クラスモデルを複数使用し単語グラフ統合を行うことにより性能が向上する可能性を見出すことができた． 3.モデル適応の検討：　教師なしモデル適応の検討を行った．この適応は音響モデルに対する適応と言語モデルに対する適応の2つが考えられるが，今年度は特に言語モデルに対する適応について検討を行った．音響モデル適応で用いられているクロスバリデーション適応を言語モデル適応に利用することにより性能向上が図れることが分った．この場合繰り返し適応が有効であり，かつ適応回数ごとに言語重みや挿入ペナルティを最適化すると，更に性能向上が得られることが分った．また雑音下音声認識に関し，ヒストグラム同等化法の改良を行い認識性能が向上することを確認した．
Current Status of Research Progress	Reason 24年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	24年度が最終年度であるため、記入しない。

Research Products
(9 results)

All 2013 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (5 results) Remarks (1 results)

[Journal Article] 識別学習を用いた離散混合分布HMMによる音声認識2013
- Author(s)
  小坂哲夫，加藤正治
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 54 Pages: 436-442
- Peer Reviewed
[Journal Article] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013
- Author(s)
  Kei Sato, Masaharu Kato and Tetsuo Kosaka
- Journal Title
  
  Proc. of International Congress on Acoustics 2013
  
  Volume: 1 Pages: 1-5
- Peer Reviewed
[Journal Article] A time-synchronous histogram equalization for noise robust speech recognition2013
- Author(s)
  Fumiya Takahashi, Masaharu Kato and Tetsuo Kosaka
- Journal Title
  
  Proc. of International Congress on Acoustics 2013
  
  Volume: 1 Pages: 1-5
- Peer Reviewed
[Presentation] 話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討2012
- Author(s)
  今野和樹,大山拓也,加藤正治,小坂哲夫
- Organizer
  音声言語情報処理研究報告
- Place of Presentation
  東京工業大学
- Year and Date
  2012-12-21
[Presentation] 日本人英語の自動発音評定における誤り規則の検討2012
- Author(s)
  佐藤慶,加藤正治,小坂哲夫
- Organizer
  日本音響学会講演論文集
- Place of Presentation
  信州大学
- Year and Date
  2012-09-21
[Presentation] 雑音下音声認識におけるフレーム重みづけヒストグラム同等化法の検討2012
- Author(s)
  高橋郁也,加藤正治,小坂哲夫
- Organizer
  日本音響学会講演論文集
- Place of Presentation
  信州大学
- Year and Date
  2012-09-19
[Presentation] 入力音声の韻律情報を用いたHMM音声合成
- Author(s)
  栗原大樹, 加藤正治, 小坂哲夫
- Organizer
  情報処理学会東北支部研究会
- Place of Presentation
  山形大学工学部
[Presentation] クロスバリデーションによる教師なし言語適応における各種パラメータの最適化
- Author(s)
  高木瑛, 加藤正治, 小坂哲夫
- Organizer
  情報処理学会東北支部研究会
- Place of Presentation
  山形大学工学部
[Remarks] 小坂研究室
- URL
  http://eieweb.yz.yamagata-u.ac.jp/~kosaka/

2012 Fiscal Year Annual Research Report

高精度な話し言葉認識技術の開発

Principal Investigator

小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)

Reason

Research Products

[Journal Article] 識別学習を用いた離散混合分布HMMによる音声認識2013

Author(s)

Journal Title

[Journal Article] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013

Author(s)

Journal Title

[Journal Article] A time-synchronous histogram equalization for noise robust speech recognition2013

Author(s)

Journal Title

[Presentation] 話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 日本人英語の自動発音評定における誤り規則の検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 雑音下音声認識におけるフレーム重みづけヒストグラム同等化法の検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 入力音声の韻律情報を用いたHMM音声合成

Author(s)

Organizer

Place of Presentation

[Presentation] クロスバリデーションによる教師なし言語適応における各種パラメータの最適化

Author(s)

Organizer

Place of Presentation

[Remarks] 小坂研究室

URL

小坂哲夫山形大学, 理工学研究科, 教授 (50359569)