複数の共有構造を用いたアニーリングに基づく音響モデリング

Research Project

Project/Area Number	11J05301
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Perception information processing/Intelligent robotics
Research Institution	Nagoya Institute of Technology
Principal Investigator	塩田さやか名古屋工業大学, 工学研究科, 特別研究員(PD)
Project Period (FY)	2011 – 2012
Project Status	Completed (Fiscal Year 2012)
Budget Amount *help	¥1,300,000 (Direct Cost: ¥1,300,000) Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000) Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Keywords	音声認識 / 音響モデリング / 複数のパラメータ共有構造 / 確定的アニーリング
Research Abstract	本研究では,複数のパラメータ共有構造を用い,確定的アニーリングEMアルゴリズムとベイズ基準を学習アルゴリズムに適用することで音声認識のための新しい音響モデリングの枠組みを提案する.初年度には,学習アルゴリズムの導出・実験及び考察を行い,国内外でその結果を発表してきた.今年度は提案法に関してさらに実験を重ねることで提案法の特徴や問題点等を考察・改善してきた.また,これまで提案法は音声認識に関しての統計的なモデリング手法として発表を行ってきているが,話者認識や音声合成といった統計モデルを基盤に用いる分野にも適用が可能である.そのため,話者認識や音声合成において提案法を適用するために,それぞれの最新の動向を調査し知見を広げるための研究活動も行った.話者認識に関しては,5ヶ月間エジンバラ大学の研究所に滞在し,話者認識の最新の動向や最新のデータ,問題点など様々な知見を得ることができた.また,海外の様々な分野の研究者とも議論を交わすことができ提案法に対する知見も深まった.さらに,音声合成の研究にも従事し,言語に依存しない話者の特徴をモデル化する研究を行ってきた.これにより話者性についての研究についても知識を深めることができ,かつ提案法の音声合成への適用についても検討することができた.今年度の研究活動の成果の国内外への発表件数は控えめではあるが,提案法について実験等をまとめ投稿した論文は採択され掲載されたため,当初の予定としては順調に進めることができたと言える.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究計画において今年度は複数のパラメータ共有構造を用いた枠組みにベイズ基準を適応し,実験を通して考察し発展させること。さらには,他の分野においても適用について検討していくことを行った.それに関して発表するまでにはまだ至ってはいないものの,海外の研究機関で話者認識の最新の研究動向についての調査もでき,音声合成の研究も行ってきたため,研究計画の達成度としてはおおむね順調であると考えている.
Strategy for Future Research Activity	今後の推進方策としては,提案法の改善点について考察し,より生成モデルとして話者の真の分布に近くなるように改善,提案を行っていくことが挙げられる.また,今年度に行った他分野への適用に関しても研究を進め,国内外の学会や論文誌への投稿を通じてまとめあげていくことも考えられる.

Report

(2 results)

2012 Annual Research Report
2011 Annual Research Report

Research Products
(8 results)

All 2013 2012 2011 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results) Remarks (2 results)

[Journal Article] A Bayesian Framework Using Multiple Model Structures for Speech Recognition2013
- Author(s)
  Sayaka Shiota, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda,
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E96.D Issue: 4 Pages: 939-948
- DOI
  10.1587/transinf.E96.D.939
- NAID
  10031182859
- ISSN
  0916-8532, 1745-1361
- Related Report
  2012 Annual Research Report
- Peer Reviewed
[Journal Article] Speech recognition based on statistical models including multiple phonetic decision trees2011
- Author(s)
  Sayaka Shiota, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 32 Issue: 6 Pages: 236-243
- DOI
  10.1250/ast.32.236
- NAID
  130001258012
- ISSN
  0369-4232, 1346-3969, 1347-5177
- Related Report
  2011 Annual Research Report
- Peer Reviewed
[Presentation] Cross-lingual speaker adaptation for HMM-based speech synthesis using joint-eigenvoices with a space of perceptual characteristics2013
- Author(s)
  Viviane de Franca Olivera, Sayaka shiota, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  日本音響学会
- Place of Presentation
  東京工科大学(東京都)
- Related Report
  2012 Annual Research Report
[Presentation] Cross-lingual Speaker Adaptation for HMM-based speech synthesis using speaker interpolation based on perceptual characteristics2012
- Author(s)
  Viviane de Franca Oliveira, Sayaka Shiota, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  日本音響学会
- Place of Presentation
  神奈川大学(神奈川県)
- Year and Date
  2012-03-15
- Related Report
  2011 Annual Research Report
[Presentation] 個人性を考慮した異言語音声合成に対する知覚評価2012
- Author(s)
  津崎実, 徳田恵一, 河井恒, 志賀芳則, 大浦圭一郎, 塩田さやか
- Organizer
  音声研究会(信学技報)
- Place of Presentation
  NTT厚木研究開発センター(神奈川県)
- Related Report
  2012 Annual Research Report
[Presentation] Cross-lingual Speaker Adaptation for HMM-based Speech Synthesis Using Speaker Interpolation Based on Perceptual Characteristics2012
- Author(s)
  Viviane de Franca Olivera, Sayaka shiota, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  Interspeech2012
- Place of Presentation
  ポートランド
- Related Report
  2012 Annual Research Report
[Remarks]
- URL
  http://www.ism.ac.jp/~sayaka/
- Related Report
  2012 Annual Research Report
[Remarks]
- URL
  http://www.sp.nitech.ac.jp/~sayaka
- Related Report
  2011 Annual Research Report

複数の共有構造を用いたアニーリングに基づく音響モデリング

Principal Investigator

塩田 さやか 名古屋工業大学, 工学研究科, 特別研究員(PD)

¥1,300,000 (Direct Cost: ¥1,300,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] A Bayesian Framework Using Multiple Model Structures for Speech Recognition2013

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Journal Article] Speech recognition based on statistical models including multiple phonetic decision trees2011

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Presentation] Cross-lingual speaker adaptation for HMM-based speech synthesis using joint-eigenvoices with a space of perceptual characteristics2013

Author(s)

Organizer

Place of Presentation

Related Report

[Presentation] Cross-lingual Speaker Adaptation for HMM-based speech synthesis using speaker interpolation based on perceptual characteristics2012

Author(s)

Organizer

Place of Presentation

Year and Date

Related Report

[Presentation] 個人性を考慮した異言語音声合成に対する知覚評価2012

Author(s)

Organizer

Place of Presentation

Related Report

[Presentation] Cross-lingual Speaker Adaptation for HMM-based Speech Synthesis Using Speaker Interpolation Based on Perceptual Characteristics2012

Author(s)

Organizer

Place of Presentation

Related Report

[Remarks]

URL

Related Report

[Remarks]

URL

Related Report

塩田さやか名古屋工業大学, 工学研究科, 特別研究員(PD)