2005 年度実績報告書

分散して蓄積された音声データを用いて多様な音響モデルを作成する方法の研究

研究課題

研究課題/領域番号	15200014
研究機関	名古屋大学
研究代表者	武田一哉名古屋大学, 情報科学研究科, 教授 (20273295)
研究分担者	鹿野清宏奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426) 河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
キーワード	音声認識 / 音響モデル / 音声コーパス / 分散データベース / 分散学習 / 十分統計量 / 話者適応
研究概要	音声対話システムを実環境下(公共情報案内、バス運行案内、自動車運転中)で運用する実験を通じて多様な音声コーパスを収集した。収集した音声コーパスは、3箇所の大学に分散して蓄積した。蓄積されたコーパスの一部を利用した音響モデルの学習を、大学毎の計算サーバで部分的に実行し、その途中結果(十分統計量)を、インターネットを介して逐次的に通信することで、分散して音響モデルを学習可能な環境(分散蓄積サーバ、分散計算サーバ、統合再推定サーバ)を構築した。次にコーパス群の中から目的に合った学習データを選択し、学習に利用する機能を付与した。学習用音声を特徴づける指標として、収録音声の雑音対音声比(SNR)、発声者の年齢・性別、学習データに含まれる音素の種類、を想定し、これらの値を指定することで分散音声コーパスから目的に合った学習データを選択し、多様な音響モデルの構築が実現することを示した。さらに、音声を特徴づけるSNRを自動的に推定する方法を研究し、混合ガウス分布により対数パワーをモデル化することで、広い範囲で精度よくSNRを推定することに成功した。SNR毎に異なる音響モデルを作成し、それらを選択利用することで高い音声認識性能が達成できることを確認した。さらに、少量の音声データ毎に予め推定・蓄積されたHMM音響モデルの十分統計量を用いて、高速に音響モデルを再学習する話者適応法の有効性を確認した。多様な雑音環境下で収録された音声のための雑音抑圧方法についても、検討を行った。

研究成果
(48件)

すべて 2006 2005

すべて雑誌論文 (47件) 図書 (1件)

[雑誌論文] 運転操作信号のケプストラム分析に基づく運転者識別2006
- 著者名/発表者名
  小澤晃史, 西脇由博, 脇田敏裕, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  情報処理学会 2006-SLP-60
  
  ページ: 19-24
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 頭部近傍のHRTF計測用小型12面体スピーカの開発および評価2006
- 著者名/発表者名
  細江誠一郎, 西野隆典, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report EA2005-96
  
  ページ: 1-6
[雑誌論文] Single-Channel Multiple Regression for In-Car Speech Enhancement2006
- 著者名/発表者名
  Weifeng LI, Katsunobu ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  IEICE Transactions on Information and systems VOL.E89-DNO.3
  
  ページ: 1032-1039
[雑誌論文] Utterance-based Selective Training for the Automatic Creation of Task-Dependent Acoustic Models2006
- 著者名/発表者名
  Tobias Cincarek, Tomok Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- 雑誌名
  
  IEICE Trans.Information and Systems Vol.E89-D, No3
  
  ページ: 962-969
[雑誌論文] Improving Rapid Unsupervised Speaker Adaptation based on HMM Sufficient Statistics in Noisy Environments using Multi-template Models2006
- 著者名/発表者名
  Randy Gomez, Akinobu Lee, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- 雑誌名
  
  IEICE Trans.Information and Systems Vol.E89-D, No3
  
  ページ: 998-1005
[雑誌論文] MAP and cumulative distribution function equalization methods for the speech spectral estimation with application in noise suppression filtering2005
- 著者名/発表者名
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  NOLISP 2005
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Speech enhancement based on MAP-log spectral magnitude estimation using the gamma prior of the speech power2005
- 著者名/発表者名
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  NSIP 2005
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Data Collection and Evaluation of Speech Recognition for Motorbike Riders2005
- 著者名/発表者名
  Hirosi TANAKA, Hirosi FUJIMURA, Chiyomi MIYAJIMA, Takanori NISHINO, Katunobu ITOU, Kazuya TAKEDA
- 雑誌名
  
  Interspeech 2005
  
  ページ: 2665-2668
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Driver identification based on spectral analysis of driving behavioral signals2005
- 著者名/発表者名
  Yshihiro NISHIWAKI, Koji OZAWA, Toshihiro WAKITA, Chiyomi MIYAJIMA, Katunobu ITOU, Kazuya TAKEDA
- 雑誌名
  
  DSP in Cars 2005
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Parametric Versus Non-Parametric Models of Driving Behavior Signals for Driver Identification2005
- 著者名/発表者名
  Toshihiro WAKITA, Koji OZAWA, Chiyomi MIYAJIMA, Kazuya TAKEDA
- 雑誌名
  
  AVBPA2005 LNCS3546
  
  ページ: 739-747
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Speech enhancement based on cumulative distribution function equalization using log-normal distributions modeling in the sub-band power domain2005
- 著者名/発表者名
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  日本音響学会講演論文集 1-1-15
  
  ページ: 831-832
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 運転行動を用いたドライバ識別2005
- 著者名/発表者名
  脇田敏裕, 小澤晃史, 宮島千代美, 五十嵐圭, 伊藤克亘, 武田一哉
- 雑誌名
  
  自動車技術会学術講演会前刷集 No.119-05
  
  ページ: 17-20
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学的研究-2005
- 著者名/発表者名
  勅使河原三保子, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report TL2005-14(2005-09)
  
  ページ: 39-44
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Sound field auralizaion system in free listening positions2005
- 著者名/発表者名
  Toshiyuki KIMURA, Wataru MIZUNO, Takanori NISHINO, Kazuya TAKEDA
- 雑誌名
  
  Forum Acusticum 2005
  
  ページ: 2511-2516
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Voice activity detection based on optimally weighted combination of multiple features2005
- 著者名/発表者名
  Y.Kida, T.Kawahara
- 雑誌名
  
  In Proc.INTERSPEECH
  
  ページ: 2621-2624
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] A speech enhancement system based on data clusterin and cumulative histogram equalization2005
- 著者名/発表者名
  Tran Huy DAT, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  ICDE 2005
[雑誌論文] Improved Noise Estimation and Log-spectral Regression for In-car Speech Recongnition2005
- 著者名/発表者名
  Weifeng LI, Katunobu ITO, Kazuya TAKEDA
- 雑誌名
  
  RWCinME
[雑誌論文] Environmental Warping for In-car Speech Recognition2005
- 著者名/発表者名
  Weifeng LI Katunobu, ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  NSIP 2005
[雑誌論文] 波面合成におけるチャネル数の主観的影響 -音源が正面付近にある場合2005
- 著者名/発表者名
  木村敏幸, 筧一彦, 武田一哉, 板倉文忠
- 雑誌名
  
  日本音響学会誌 TVRSJ Vol.10
  
  ページ: 257-266
[雑誌論文] Driver Identification Using Driving Behavior Signals2005
- 著者名/発表者名
  Toshihiro WAKITA, Koji OZAWA, Chiyomi MIYAJIMA, Kei IGARASHI, Katunobu ITOU, Kazuya AKEDA
- 雑誌名
  
  ITSC2005 TC4.4,2005
[雑誌論文] 音素長伸縮による対話音声認識性能の向上手法2005
- 著者名/発表者名
  山田善之, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report SLP2005-58
  
  ページ: 1-6
[雑誌論文] コーパスに基づく雑音抑圧手法2005
- 著者名/発表者名
  武田一哉, 李衛鋒, チャン・フィ・ダット
- 雑誌名
  
  情報論的学習理論ワークショップ
  
  ページ: 297-302
[雑誌論文] 話し言葉音声認識のための汎用的な統計的発音変動モデル2005
- 著者名/発表者名
  秋田祐哉, 河原達也
- 雑誌名
  
  電子情報通信学会論文誌 Vol.J88-DII, No.9
  
  ページ: 1780-1789
[雑誌論文] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing2005
- 著者名/発表者名
  N.Nishida, T.Kawahara
- 雑誌名
  
  IEEE Trans.Speech & Audio process. Vol.13,No.4
  
  ページ: 583-592
[雑誌論文] Generalized statistical modeling of pronunciation variations using variable-length phone context2005
- 著者名/発表者名
  Y.Akita, T.Kawahara
- 雑誌名
  
  In Proc.IEEE-ICASSP V0l.1
  
  ページ: 689-692
[雑誌論文] 自動車走行観測信号に含まれる個人性のモデル化2005
- 著者名/発表者名
  小澤晃史, 脇田敏裕, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report SIP2005-95,SIS2005-44,SP2005-77
  
  ページ: 59-64
[雑誌論文] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学研究-2005
- 著者名/発表者名
  勅使河原三保子, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report TL2005-14
  
  ページ: 39-44
[雑誌論文] 車内音声認識のためのバイモーダルデータベースの構築2005
- 著者名/発表者名
  宮島千代美, 根木大輔, 伊藤克亘, 武田一哉, 佐野昌己, 二宮芳樹
- 雑誌名
  
  日本音響学会講演論文集
  
  ページ: 843-844
[雑誌論文] Evaluation of HRTFs estimated using physical featu2005
- 著者名/発表者名
  Naoya INOUE, Toshiyuki KIMURA, Takanori NISHINO, Katsunobu ITOU
- 雑誌名
  
  Acoustical Science and Technology Vol.26No.5
  
  ページ: 453-455
[雑誌論文] HRTF modeling using physical features2005
- 著者名/発表者名
  Naoya INOUE, Toshiyuki KIMURA, Takanori NISHINO, Katsunobu ITOU
- 雑誌名
  
  Forum Acusticum 2005
  
  ページ: L199-L202
[雑誌論文] Measurement of head-related transfer functions in the proximal region2005
- 著者名/発表者名
  Seiichiro HOSOE, Takanori NISHINO, Katunobu ITOU, Kazuya TAKEDA
- 雑誌名
  
  Forum Acusticum 2005
  
  ページ: 2539-2542
[雑誌論文] Evaluation of sound localization under condition of covered ears2005
- 著者名/発表者名
  Madoka TAKIMOTO, Takanori ISHINO, Katunobu ITOU, Kazuya TAKEDA
- 雑誌名
  
  Forum Acusticum 2005
  
  ページ: L203-L206
[雑誌論文] バイク走行状態における音声認識2005
- 著者名/発表者名
  田中寛, 宮島千代美, 西野隆典, 伊藤克亘, 武田一哉
- 雑誌名
  
  日本音響学会講演論文集
  
  ページ: 841-842
[雑誌論文] 局所的・大局的な特徴を利用した歌声と朗読音声の識別2005
- 著者名/発表者名
  大石康智, 後藤真孝, 伊藤克亘, 武田一哉
- 雑誌名
  
  情報処理学会音楽情報科学研究会 Vol.2005No.82
  
  ページ: 1-6
[雑誌論文] Discrimination between Singing and Speaking Voices2005
- 著者名/発表者名
  Yasunori OHISHI, Masataka GOTO, Katunobu ITO, Kazuya TAKEDA
- 雑誌名
  
  INTERSPEECH2005
  
  ページ: 1141-1144
[雑誌論文] 歌声と朗読音声の識別システム構築のための人間の識別能力の調査と考察2005
- 著者名/発表者名
  大石康智, 後藤真孝, 伊藤克亘, 武田一哉
- 雑誌名
  
  日本音響学会講演論文集 2005年秋季研究発表会
  
  ページ: 77-78
[雑誌論文] ケプストラム分析を用いた実収録運転行動信号に含まれる個人性のモデル化2005
- 著者名/発表者名
  西脇由博, 小澤晃史, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  FIT2005 第4回情報科学技術フォーラム
  
  ページ: 289-292
[雑誌論文] 日本語指文字認識・合成用コーパスの構築2005
- 著者名/発表者名
  江本祐太, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  FIT2005 第4回情報科学技術フオーラム 2005年秋季研究発表会
[雑誌論文] HMMに基づく連続指文字認識・合成コーパスの構築2005
- 著者名/発表者名
  江本祐太, 宮島千代美, 伊藤克亘, 武田一哉
- 雑誌名
  
  信学技報 IEICE Technical Report SIP2005-85-58
  
  ページ: 53-58
[雑誌論文] 大規模被験者実験に向けた音声対話システム構築に関する検討2005
- 著者名/発表者名
  原直, 勅使河原三保子, 伊藤克亘, 武田一哉
- 雑誌名
  
  日本音響学会講演論文集 1-7-16
  
  ページ: 23-24
[雑誌論文] In-car speech recognition - Single-channel and mufti-channel approaches2005
- 著者名/発表者名
  Weifeng LI, Katunobu ITOU, Kazuya TAKEDA, Fumitada ITAKURA
- 雑誌名
  
  日本音響学会講演論文集 1-1-16
  
  ページ: 833-834
[雑誌論文] 外耳被覆が音源定位に及ぼす影響の調査2005
- 著者名/発表者名
  瀧本まどか, 西野隆典, 伊藤克亘, 武田一哉
- 雑誌名
  
  日本音響学会講演論文集 3-Q-9
  
  ページ: 665-666
[雑誌論文] 頭部近傍の頭部伝達関数データベースの構築及び評価2005
- 著者名/発表者名
  細江誠一郎, 西野隆典, 伊藤克亘, 武田一哉
- 雑誌名
  
  日本音響学会講演論文集 3-Q-7
  
  ページ: 661-662
[雑誌論文] 指向性マイクロホンを用いた波面合成法の理論的検討2005
- 著者名/発表者名
  木村敏幸, 筧一彦, 武田一哉, 板倉文忠
- 雑誌名
  
  日本音響学会講演論文集 3-Q-10
  
  ページ: 667-668
[雑誌論文] Selective EM Training of Acoustic Models based on Sufficient Statistics of Signal Utterances2005
- 著者名/発表者名
  Tobias Cincarek, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano
- 雑誌名
  
  IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)
  
  ページ: 168-173
[雑誌論文] Operating A Public Spoken Guidance System In Real Environment2005
- 著者名/発表者名
  Ryuichi Nishimura, Akinobu Lee, Masashi Yamada, Kiyohiro Shikano
- 雑誌名
  
  Proceeding of Interspeech 2005
  
  ページ: 845-848
[雑誌論文] Rapid Unsupervised Speaker Adaptation Based on Multi-template HMM Sufficient Statistics2005
- 著者名/発表者名
  RandyGomez, AkinobuLee, TomokiToda, HiroshiSaruwatari, Kiyohiro Shikano
- 雑誌名
  
  Proceedings of Interspeech
  
  ページ: 293-296
[図書] 音響エレクトロニクス-基礎と応用-2005
- 著者名/発表者名
  大賀寿郎, 鎌倉友男, 斉藤繁実, 武田一哉
- 総ページ数
  191
- 出版者
  培風館

2005 年度 実績報告書

分散して蓄積された音声データを用いて多様な音響モデルを作成する方法の研究

研究代表者

武田 一哉 名古屋大学, 情報科学研究科, 教授 (20273295)

研究成果

[雑誌論文] 運転操作信号のケプストラム分析に基づく運転者識別2006

著者名/発表者名

雑誌名

説明

[雑誌論文] 頭部近傍のHRTF計測用小型12面体スピーカの開発および評価2006

著者名/発表者名

雑誌名

[雑誌論文] Single-Channel Multiple Regression for In-Car Speech Enhancement2006

著者名/発表者名

雑誌名

[雑誌論文] Utterance-based Selective Training for the Automatic Creation of Task-Dependent Acoustic Models2006

著者名/発表者名

雑誌名

[雑誌論文] Improving Rapid Unsupervised Speaker Adaptation based on HMM Sufficient Statistics in Noisy Environments using Multi-template Models2006

著者名/発表者名

雑誌名

[雑誌論文] MAP and cumulative distribution function equalization methods for the speech spectral estimation with application in noise suppression filtering2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Speech enhancement based on MAP-log spectral magnitude estimation using the gamma prior of the speech power2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Data Collection and Evaluation of Speech Recognition for Motorbike Riders2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Driver identification based on spectral analysis of driving behavioral signals2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Parametric Versus Non-Parametric Models of Driving Behavior Signals for Driver Identification2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Speech enhancement based on cumulative distribution function equalization using log-normal distributions modeling in the sub-band power domain2005

著者名/発表者名

雑誌名

説明

[雑誌論文] 運転行動を用いたドライバ識別2005

著者名/発表者名

雑誌名

説明

[雑誌論文] 日本のアニメの音声に表された感情と性格 -声のステレオタイプの音声学的研究-2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Sound field auralizaion system in free listening positions2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Voice activity detection based on optimally weighted combination of multiple features2005

著者名/発表者名

雑誌名

説明

[雑誌論文] A speech enhancement system based on data clusterin and cumulative histogram equalization2005

著者名/発表者名

雑誌名

[雑誌論文] Improved Noise Estimation and Log-spectral Regression for In-car Speech Recongnition2005

著者名/発表者名

雑誌名

[雑誌論文] Environmental Warping for In-car Speech Recognition2005

著者名/発表者名

雑誌名

[雑誌論文] 波面合成におけるチャネル数の主観的影響 -音源が正面付近にある場合2005

著者名/発表者名

雑誌名

[雑誌論文] Driver Identification Using Driving Behavior Signals2005

著者名/発表者名

雑誌名

[雑誌論文] 音素長伸縮による対話音声認識性能の向上手法2005

著者名/発表者名

雑誌名

[雑誌論文] コーパスに基づく雑音抑圧手法2005

2005 年度実績報告書

武田一哉名古屋大学, 情報科学研究科, 教授 (20273295)