2011 Fiscal Year Annual Research Report

複数の共用構造を用いたアニーリングに基づく音響モデリング

Research Project

Project/Area Number	11J05301
Research Institution	Nagoya Institute of Technology
Principal Investigator	塩田さやか名古屋工業大学, 大学院・工学研究科, 特別研究員(DC2)
Keywords	音声認識 / 音響モデリング / 複数のパラメータ共有構造 / 確定的アニーリング
Research Abstract	近年,音声認識システムが携帯電話やカーナビゲーションシステムといった様々なアプリケーションの入力インタフェースとして用いられるようになってきている.そして,より多くのユーザが快適に音声認識システムを使用する為に音声認識に関する研究では更なる高精度化が求められてきている.本研究では,統計モデルであるHMMを用いた音声認識システムにおいて,扱う統計モデルの複雑さを向上させさらに学習アルゴリズムと包括して考えることでモデルの汎化性能をさらに向上させることを目的とした新しいモデル構造を提案し,その有効性を確認するものである.そこでベイズ基準の枠組みにおいて複数のパラメータ構造を用いることを考える.そのためにパラメータ構造を隠れ変数として含む新しいて関数を定義し,さらにその関数をより最適に学習させていくために確定的アニーリングという学習手法を用いてモデルの学習を行う.ただし,複数のモデル構造を段階的に構築していく手法ではないのでどのようなパラメータ構造を用いていくのかというのが大きな問題となる.そこでまず提案法の有効性を確認する為に2つのパラメータ構造を用いた実験を行いそれらの成果をまとめたものを英文誌に論文としてまとめて投稿した.さらに学習基準などの検討も進めていきつつ来年度には音声合成などの分野にも提案法を用いたものを適応していくことを目指すために近年音声合成の分野で期待されている話者性を考慮したクロスリンガル話者適応に関する研究にも着手し人間が話者性をどのように聞きわけているのか調査するような実験を行い更にモデル化も検討しその成果に関しても学会において発表を行った.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究計画において今年度は複数のパラメータ共有構造を用いた枠組みにベイズ基準を適応することを計画しており,その内容に関しては国内の研究会及び国際学会において発表を行ってきた.論文への投稿準備もほぼ終了しており来年度へのステップを踏むための準備も順調に進展しているため達成度としてはおおむね順調であると考えている.
Strategy for Future Research Activity	今後の推進方策としては,パラメータ共有構造に関して詳しい知見を得るために実験結果を様々な角度から調査・考察し,それらをまとめた成果を学会誌へ投稿すること及びさらに音声合成や話者認識といった統計モデルを用いた手法が広く用いられている分野に関しても提案法が有効であるかを検証する為にそれらの研究、調査を進め定式化のための知見を深めていくことを考えている.

Research Products
(3 results)

All 2012 2011 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results) Remarks (1 results)

[Journal Article] Speech recognition based on statistical models including multiple phonetic decision trees2011
- Author(s)
  Sayaka Shiota, Kei Hashimoto, Heiga Zen, Yoshihiko Nankaku, Lee Akinobu, Keiichi Tokuda
- Journal Title
  
  Acoustical science and technology
  
  Volume: 32 Pages: 236-243
- DOI
  10.1250/ast.32.236
- Peer Reviewed
[Presentation] Cross-lingual Speaker Adaptation for HMM-based speech synthesis using speaker interpolation based on perceptual characteristics2012
- Author(s)
  Viviane de Franca Oliveira, Sayaka Shiota, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  日本音響学会
- Place of Presentation
  神奈川大学(神奈川県)
- Year and Date
  2012-03-15
[Remarks]
- URL
  http://www.sp.nitech.ac.jp/~sayaka

2011 Fiscal Year Annual Research Report

複数の共用構造を用いたアニーリングに基づく音響モデリング

Principal Investigator

塩田 さやか 名古屋工業大学, 大学院・工学研究科, 特別研究員(DC2)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Speech recognition based on statistical models including multiple phonetic decision trees2011

Author(s)

Journal Title

DOI

[Presentation] Cross-lingual Speaker Adaptation for HMM-based speech synthesis using speaker interpolation based on perceptual characteristics2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks]

URL

塩田さやか名古屋工業大学, 大学院・工学研究科, 特別研究員(DC2)