2005 Fiscal Year Annual Research Report

分散して蓄積された音声データを用いて多様な音響モデルを作成する方法の研究

Research Project

Project/Area Number	15200014
Research Institution	Nagoya University
Principal Investigator	武田一哉名古屋大学, 情報科学研究科, 教授 (20273295)
Co-Investigator(Kenkyū-buntansha)	鹿野清宏奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426) 河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
Keywords	音声認識 / 音響モデル / 音声コーパス / 分散データベース / 分散学習 / 十分統計量 / 話者適応
Research Abstract	音声対話システムを実環境下(公共情報案内、バス運行案内、自動車運転中)で運用する実験を通じて多様な音声コーパスを収集した。収集した音声コーパスは、3箇所の大学に分散して蓄積した。蓄積されたコーパスの一部を利用した音響モデルの学習を、大学毎の計算サーバで部分的に実行し、その途中結果(十分統計量)を、インターネットを介して逐次的に通信することで、分散して音響モデルを学習可能な環境(分散蓄積サーバ、分散計算サーバ、統合再推定サーバ)を構築した。次にコーパス群の中から目的に合った学習データを選択し、学習に利用する機能を付与した。学習用音声を特徴づける指標として、収録音声の雑音対音声比(SNR)、発声者の年齢・性別、学習データに含まれる音素の種類、を想定し、これらの値を指定することで分散音声コーパスから目的に合った学習データを選択し、多様な音響モデルの構築が実現することを示した。さらに、音声を特徴づけるSNRを自動的に推定する方法を研究し、混合ガウス分布により対数パワーをモデル化することで、広い範囲で精度よくSNRを推定することに成功した。SNR毎に異なる音響モデルを作成し、それらを選択利用することで高い音声認識性能が達成できることを確認した。さらに、少量の音声データ毎に予め推定・蓄積されたHMM音響モデルの十分統計量を用いて、高速に音響モデルを再学習する話者適応法の有効性を確認した。多様な雑音環境下で収録された音声のための雑音抑圧方法についても、検討を行った。

Research Products
(48 results)

All 2006 2005

All Journal Article (47 results) Book (1 results)

[Journal Article] 運転操作信号のケプストラム分析に基づく運転者識別2006
- Author(s)
  小澤晃史, 西脇由博, 脇田敏裕, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  情報処理学会 2006-SLP-60
  
  Pages: 19-24
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] 頭部近傍のHRTF計測用小型12面体スピーカの開発および評価2006
- Author(s)
  細江誠一郎, 西野隆典, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report EA2005-96
  
  Pages: 1-6
[Journal Article] Single-Channel Multiple Regression for In-Car Speech Enhancement2006
- Author(s)
  Weifeng LI, Katsunobu ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  IEICE Transactions on Information and systems VOL.E89-DNO.3
  
  Pages: 1032-1039
[Journal Article] Utterance-based Selective Training for the Automatic Creation of Task-Dependent Acoustic Models2006
- Author(s)
  Tobias Cincarek, Tomok Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- Journal Title
  
  IEICE Trans.Information and Systems Vol.E89-D, No3
  
  Pages: 962-969
[Journal Article] Improving Rapid Unsupervised Speaker Adaptation based on HMM Sufficient Statistics in Noisy Environments using Multi-template Models2006
- Author(s)
  Randy Gomez, Akinobu Lee, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- Journal Title
  
  IEICE Trans.Information and Systems Vol.E89-D, No3
  
  Pages: 998-1005
[Journal Article] MAP and cumulative distribution function equalization methods for the speech spectral estimation with application in noise suppression filtering2005
- Author(s)
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  NOLISP 2005
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Speech enhancement based on MAP-log spectral magnitude estimation using the gamma prior of the speech power2005
- Author(s)
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  NSIP 2005
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Data Collection and Evaluation of Speech Recognition for Motorbike Riders2005
- Author(s)
  Hirosi TANAKA, Hirosi FUJIMURA, Chiyomi MIYAJIMA, Takanori NISHINO, Katunobu ITOU, Kazuya TAKEDA
- Journal Title
  
  Interspeech 2005
  
  Pages: 2665-2668
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Driver identification based on spectral analysis of driving behavioral signals2005
- Author(s)
  Yshihiro NISHIWAKI, Koji OZAWA, Toshihiro WAKITA, Chiyomi MIYAJIMA, Katunobu ITOU, Kazuya TAKEDA
- Journal Title
  
  DSP in Cars 2005
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Parametric Versus Non-Parametric Models of Driving Behavior Signals for Driver Identification2005
- Author(s)
  Toshihiro WAKITA, Koji OZAWA, Chiyomi MIYAJIMA, Kazuya TAKEDA
- Journal Title
  
  AVBPA2005 LNCS3546
  
  Pages: 739-747
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Speech enhancement based on cumulative distribution function equalization using log-normal distributions modeling in the sub-band power domain2005
- Author(s)
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  日本音響学会講演論文集 1-1-15
  
  Pages: 831-832
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] 運転行動を用いたドライバ識別2005
- Author(s)
  脇田敏裕, 小澤晃史, 宮島千代美, 五十嵐圭, 伊藤克亘, 武田一哉
- Journal Title
  
  自動車技術会学術講演会前刷集 No.119-05
  
  Pages: 17-20
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学的研究-2005
- Author(s)
  勅使河原三保子, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report TL2005-14(2005-09)
  
  Pages: 39-44
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] Sound field auralizaion system in free listening positions2005
- Author(s)
  Toshiyuki KIMURA, Wataru MIZUNO, Takanori NISHINO, Kazuya TAKEDA
- Journal Title
  
  Forum Acusticum 2005
  
  Pages: 2511-2516
- Description
  「研究成果報告書概要(欧文)」より
[Journal Article] Voice activity detection based on optimally weighted combination of multiple features2005
- Author(s)
  Y.Kida, T.Kawahara
- Journal Title
  
  In Proc.INTERSPEECH
  
  Pages: 2621-2624
- Description
  「研究成果報告書概要(欧文)」より
[Journal Article] A speech enhancement system based on data clusterin and cumulative histogram equalization2005
- Author(s)
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  ICDE 2005
[Journal Article] Improved Noise Estimation and Log-spectral Regression for In-car Speech Recongnition2005
- Author(s)
  Weifeng LI, Katunobu ITO, Kazuya TAKEDA
- Journal Title
  
  RWCinME
[Journal Article] Environmental Warping for In-car Speech Recognition2005
- Author(s)
  Weifeng LI Katunobu, ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  NSIP 2005
[Journal Article] 波面合成におけるチャネル数の主観的影響 -音源が正面付近にある場合2005
- Author(s)
  木村敏幸, 筧一彦, 武田一哉, 板倉文忠
- Journal Title
  
  日本音響学会誌 TVRSJ Vol.10
  
  Pages: 257-266
[Journal Article] Driver Identification Using Driving Behavior Signals2005
- Author(s)
  Toshihiro WAKITA, Koji OZAWA, Chiyomi MIYAJIMA, Kei IGARASHI, Katunobu ITOU, Kazuya AKEDA
- Journal Title
  
  ITSC2005 TC4.4,2005
[Journal Article] 音素長伸縮による対話音声認識性能の向上手法2005
- Author(s)
  山田善之, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report SLP2005-58
  
  Pages: 1-6
[Journal Article] コーパスに基づく雑音抑圧手法2005
- Author(s)
  武田一哉, 李衛鋒, チャン・フィ・ダット
- Journal Title
  
  情報論的学習理論ワークショップ
  
  Pages: 297-302
[Journal Article] 話し言葉音声認識のための汎用的な統計的発音変動モデル2005
- Author(s)
  秋田祐哉, 河原達也
- Journal Title
  
  電子情報通信学会論文誌 Vol.J88-DII, No.9
  
  Pages: 1780-1789
[Journal Article] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing2005
- Author(s)
  N.Nishida, T.Kawahara
- Journal Title
  
  IEEE Trans.Speech & Audio process. Vol.13,No.4
  
  Pages: 583-592
[Journal Article] Generalized statistical modeling of pronunciation variations using variable-length phone context2005
- Author(s)
  Y.Akita, T.Kawahara
- Journal Title
  
  In Proc.IEEE-ICASSP V0l.1
  
  Pages: 689-692
[Journal Article] 自動車走行観測信号に含まれる個人性のモデル化2005
- Author(s)
  小澤晃史, 脇田敏裕, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report SIP2005-95,SIS2005-44,SP2005-77
  
  Pages: 59-64
[Journal Article] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学研究-2005
- Author(s)
  勅使河原三保子, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report TL2005-14
  
  Pages: 39-44
[Journal Article] 車内音声認識のためのバイモーダルデータベースの構築2005
- Author(s)
  宮島千代美, 根木大輔, 伊藤克亘, 武田一哉, 佐野昌己, 二宮芳樹
- Journal Title
  
  日本音響学会講演論文集
  
  Pages: 843-844
[Journal Article] Evaluation of HRTFs estimated using physical featu2005
- Author(s)
  Naoya INOUE, Toshiyuki KIMURA, Takanori NISHINO, Katsunobu ITOU
- Journal Title
  
  Acoustical Science and Technology Vol.26No.5
  
  Pages: 453-455
[Journal Article] HRTF modeling using physical features2005
- Author(s)
  Naoya INOUE, Toshiyuki KIMURA, Takanori NISHINO, Katsunobu ITOU
- Journal Title
  
  Forum Acusticum 2005
  
  Pages: L199-L202
[Journal Article] Measurement of head-related transfer functions in the proximal region2005
- Author(s)
  Seiichiro HOSOE, Takanori NISHINO, Katunobu ITOU, Kazuya TAKEDA
- Journal Title
  
  Forum Acusticum 2005
  
  Pages: 2539-2542
[Journal Article] Evaluation of sound localization under condition of covered ears2005
- Author(s)
  Madoka TAKIMOTO, Takanori ISHINO, Katunobu ITOU, Kazuya TAKEDA
- Journal Title
  
  Forum Acusticum 2005
  
  Pages: L203-L206
[Journal Article] バイク走行状態における音声認識2005
- Author(s)
  田中寛, 宮島千代美, 西野隆典, 伊藤克亘, 武田一哉
- Journal Title
  
  日本音響学会講演論文集
  
  Pages: 841-842
[Journal Article] 局所的・大局的な特徴を利用した歌声と朗読音声の識別2005
- Author(s)
  大石康智, 後藤真孝, 伊藤克亘, 武田一哉
- Journal Title
  
  情報処理学会音楽情報科学研究会 Vol.2005No.82
  
  Pages: 1-6
[Journal Article] Discrimination between Singing and Speaking Voices2005
- Author(s)
  Yasunori OHISHI, Masataka GOTO, Katunobu ITO, Kazuya TAKEDA
- Journal Title
  
  INTERSPEECH2005
  
  Pages: 1141-1144
[Journal Article] 歌声と朗読音声の識別システム構築のための人間の識別能力の調査と考察2005
- Author(s)
  大石康智, 後藤真孝, 伊藤克亘, 武田一哉
- Journal Title
  
  日本音響学会講演論文集 2005年秋季研究発表会
  
  Pages: 77-78
[Journal Article] ケプストラム分析を用いた実収録運転行動信号に含まれる個人性のモデル化2005
- Author(s)
  西脇由博, 小澤晃史, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  FIT2005 第4回情報科学技術フォーラム
  
  Pages: 289-292
[Journal Article] 日本語指文字認識・合成用コーパスの構築2005
- Author(s)
  江本祐太, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  FIT2005 第4回情報科学技術フオーラム 2005年秋季研究発表会
[Journal Article] HMMに基づく連続指文字認識・合成コーパスの構築2005
- Author(s)
  江本祐太, 宮島千代美, 伊藤克亘, 武田一哉
- Journal Title
  
  信学技報 IEICE Technical Report SIP2005-85-58
  
  Pages: 53-58
[Journal Article] 大規模被験者実験に向けた音声対話システム構築に関する検討2005
- Author(s)
  原直, 勅使河原三保子, 伊藤克亘, 武田一哉
- Journal Title
  
  日本音響学会講演論文集 1-7-16
  
  Pages: 23-24
[Journal Article] In-car speech recognition - Single-channel and mufti-channel approaches2005
- Author(s)
  Weifeng LI, Katunobu ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- Journal Title
  
  日本音響学会講演論文集 1-1-16
  
  Pages: 833-834
[Journal Article] 外耳被覆が音源定位に及ぼす影響の調査2005
- Author(s)
  瀧本まどか, 西野隆典, 伊藤克亘, 武田一哉
- Journal Title
  
  日本音響学会講演論文集 3-Q-9
  
  Pages: 665-666
[Journal Article] 頭部近傍の頭部伝達関数データベースの構築及び評価2005
- Author(s)
  細江誠一郎, 西野隆典, 伊藤克亘, 武田一哉
- Journal Title
  
  日本音響学会講演論文集 3-Q-7
  
  Pages: 661-662
[Journal Article] 指向性マイクロホンを用いた波面合成法の理論的検討2005
- Author(s)
  木村敏幸, 筧一彦, 武田一哉, 板倉文忠
- Journal Title
  
  日本音響学会講演論文集 3-Q-10
  
  Pages: 667-668
[Journal Article] Selective EM Training of Acoustic Models based on Sufficient Statistics of Signal Utterances2005
- Author(s)
  Tobias Cincarek, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- Journal Title
  
  IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)
  
  Pages: 168-173
[Journal Article] Operating A Public Spoken Guidance System In Real Environment2005
- Author(s)
  Ryuichi Nishimura, Akinobu Lee, Masashi Yamada, Kiyohiro Shikano
- Journal Title
  
  Proceeding of Interspeech 2005
  
  Pages: 845-848
[Journal Article] Rapid Unsupervised Speaker Adaptation Based on Multi-template HMM Sufficient Statistics2005
- Author(s)
  RandyGomez, AkinobuLee, TomokiToda, HiroshiSaruwatari, Kiyohiro Shikano
- Journal Title
  
  Proceedings of Interspeech
  
  Pages: 293-296
[Book] 音響エレクトロニクス-基礎と応用-2005
- Author(s)
  大賀寿郎, 鎌倉友男, 斉藤繁実, 武田一哉
- Total Pages
  191
- Publisher
  培風館

2005 Fiscal Year Annual Research Report

分散して蓄積された音声データを用いて多様な音響モデルを作成する方法の研究

Principal Investigator

武田 一哉 名古屋大学, 情報科学研究科, 教授 (20273295)

Research Products

[Journal Article] 運転操作信号のケプストラム分析に基づく運転者識別2006

Author(s)

Journal Title

Description

[Journal Article] 頭部近傍のHRTF計測用小型12面体スピーカの開発および評価2006

Author(s)

Journal Title

[Journal Article] Single-Channel Multiple Regression for In-Car Speech Enhancement2006

Author(s)

Journal Title

[Journal Article] Utterance-based Selective Training for the Automatic Creation of Task-Dependent Acoustic Models2006

Author(s)

Journal Title

[Journal Article] Improving Rapid Unsupervised Speaker Adaptation based on HMM Sufficient Statistics in Noisy Environments using Multi-template Models2006

Author(s)

Journal Title

[Journal Article] MAP and cumulative distribution function equalization methods for the speech spectral estimation with application in noise suppression filtering2005

Author(s)

Journal Title

Description

[Journal Article] Speech enhancement based on MAP-log spectral magnitude estimation using the gamma prior of the speech power2005

Author(s)

Journal Title

Description

[Journal Article] Data Collection and Evaluation of Speech Recognition for Motorbike Riders2005

Author(s)

Journal Title

Description

[Journal Article] Driver identification based on spectral analysis of driving behavioral signals2005

Author(s)

Journal Title

Description

[Journal Article] Parametric Versus Non-Parametric Models of Driving Behavior Signals for Driver Identification2005

Author(s)

Journal Title

Description

[Journal Article] Speech enhancement based on cumulative distribution function equalization using log-normal distributions modeling in the sub-band power domain2005

Author(s)

Journal Title

Description

[Journal Article] 運転行動を用いたドライバ識別2005

Author(s)

Journal Title

Description

[Journal Article] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学的研究-2005

Author(s)

Journal Title

Description

[Journal Article] Sound field auralizaion system in free listening positions2005

Author(s)

Journal Title

Description

[Journal Article] Voice activity detection based on optimally weighted combination of multiple features2005

Author(s)

Journal Title

Description

[Journal Article] A speech enhancement system based on data clusterin and cumulative histogram equalization2005

Author(s)

Journal Title

[Journal Article] Improved Noise Estimation and Log-spectral Regression for In-car Speech Recongnition2005

Author(s)

Journal Title

[Journal Article] Environmental Warping for In-car Speech Recognition2005

Author(s)

Journal Title

[Journal Article] 波面合成におけるチャネル数の主観的影響 -音源が正面付近にある場合2005

Author(s)

Journal Title

[Journal Article] Driver Identification Using Driving Behavior Signals2005

Author(s)

Journal Title

[Journal Article] 音素長伸縮による対話音声認識性能の向上手法2005

Author(s)

Journal Title

[Journal Article] コーパスに基づく雑音抑圧手法2005

武田一哉名古屋大学, 情報科学研究科, 教授 (20273295)