2003 Fiscal Year Annual Research Report

分散型話者照合方式に関する研究

Research Project

Project/Area Number	14350204
Research Institution	The University of Tokushima
Principal Investigator	黒岩眞吾徳島大学, 工学部, 助教授 (20333510)
Co-Investigator(Kenkyū-buntansha)	柘植覚徳島大学, 工学部, 教授 (00325250) 任福継徳島大学, 工学部, 教授 (20264947) 北研二徳島大学, 工学部, 教授 (10243734)
Keywords	話者認識 / 分散型音声認識 / 音声データベース / セグメント量子化 / 判別分析 / 回線特性正規化 / ノンパラメトリック
Research Abstract	話者認識における,長期的および短期的な発声の揺らぎを分析するための音声データベースの収集を引き続き行っている(平成14年12月〜).話者数は男女各2名で,1週間ごとに朝,昼,夕の1日3回,15分程度の時間に渡って発声した音声を収集している.発声内容は音素バランス文50文,4桁数字,単語等で毎回同一の内容を発声している.また,収録前に,体温,血圧,脈拍,体重,室温,湿度等も記録している.録音場所は,平成15年12月より本補助金で購入した組立型防音無響室内(暗騒音レベルは28dBA)であり,比較的良質な価値ある音声データが収集できている(ただし,80Hz以下の雑音の混入あり).データベース化に関しては平成15年12月までの女性1名の音声のみが発声毎にファイリングできている.現在,データベース化の効率を上げるため,半自動で発声を分割する手法について検討を進めている. 作成した音声データベースの基礎的分析として,5母音のデータを用い,発声時刻や時期,その他各種情報とピッチおよびスペクトル情報との相関を調査したが,現在までに有意な結果を得るに至っていない.今後,ケプストラム空間上での相対的な位置関係,発声速度や音素継続時間長との関係等,さらなる調査を行い発声揺らぎの原因を追求する. 一方,話者照合用音響分析手法として,上記データベースから時期差にかかわる特徴をセグメント量子化および判別分析により抽出し,さらに判別面へ特徴ベクトルを射影することによる時期差に頑健なパラメータ抽出法を検討した. 圧縮方式に関しては,同一のビットレートに圧縮する場合でも,端末での分析帯域幅を広げることにより話者認識性能を向上できることを明らかにした.さらに,ノンパラメトリックな話者認識手法を考案し,ベクトル量子化が標準となる分散環境で,GMM等のパラメトリックな手法に比べ高い話者認識性能を達成した.

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] Shingo Kuroiwa: "Blind Equalization Techniques for ETSI Standard DSR Front-end"Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vol.1. 392-395 (2003)
[Publications] Satoru Tsuge: "Evaluation of ETSI Advanced Front-end and Bias Removal Method on the Japanese Newspaper Article Sentences Speech Corpus"Proceedings of Eurospeech 2003. Vol.3. 3081-3084 (2003)
[Publications] Koji Tanaka: "An acoustic model adaptation using HMM-based speech synthesis"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. Vol.1. 368-376 (2003)
[Publications] Shingo Kuroiwa: "Blind equalization via minimization of VQ distortion for ETSI standard DSR front-end"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. Vol.1. 585-590 (2003)
[Publications] 柘植覚: "周波数特性の変動に頑健な実時間分散型音声認識手法"情報処理学会研究報告SLP(音声言語情報処理). Vol.SLP-49. 13-18 (2003)
[Publications] 福田一平: "分散音声認識フロントエンドを用いた話者認識実験"日本音響学会2004年春季研究発表会講演論文集. Vol.1. 175-176 (2004)

2003 Fiscal Year Annual Research Report

分散型話者照合方式に関する研究

Principal Investigator

黒岩 眞吾 徳島大学, 工学部, 助教授 (20333510)

Research Products

[Publications] Shingo Kuroiwa: "Blind Equalization Techniques for ETSI Standard DSR Front-end"Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vol.1. 392-395 (2003)

[Publications] Satoru Tsuge: "Evaluation of ETSI Advanced Front-end and Bias Removal Method on the Japanese Newspaper Article Sentences Speech Corpus"Proceedings of Eurospeech 2003. Vol.3. 3081-3084 (2003)

[Publications] Koji Tanaka: "An acoustic model adaptation using HMM-based speech synthesis"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. Vol.1. 368-376 (2003)

[Publications] Shingo Kuroiwa: "Blind equalization via minimization of VQ distortion for ETSI standard DSR front-end"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. Vol.1. 585-590 (2003)

[Publications] 柘植 覚: "周波数特性の変動に頑健な実時間分散型音声認識手法"情報処理学会研究報告SLP(音声言語情報処理). Vol.SLP-49. 13-18 (2003)

[Publications] 福田一平: "分散音声認識フロントエンドを用いた話者認識実験"日本音響学会2004年春季研究発表会講演論文集. Vol.1. 175-176 (2004)

黒岩眞吾徳島大学, 工学部, 助教授 (20333510)

[Publications] 柘植覚: "周波数特性の変動に頑健な実時間分散型音声認識手法"情報処理学会研究報告SLP(音声言語情報処理). Vol.SLP-49. 13-18 (2003)