2009 Fiscal Year Annual Research Report
長期間収録音声コーパスに基づく話者内変動に頑健な話者認識手法の研究
Project/Area Number |
21300060
|
Research Institution | Chiba University |
Principal Investigator |
黒岩 眞吾 Chiba University, 大学院・融合科学研究科, 教授 (20333510)
|
Co-Investigator(Kenkyū-buntansha) |
柘植 覚 徳島大学, 大学院・ソシオテクノサイエンス研究部, 講師 (00325250)
長内 隆 科学警察研究所, 法科学第四部, 室長 (70392264)
|
Keywords | 音声学 / 話者認識 / 話者識別 / 話者照合 / 音声認証 / 識別学習 / 話者内変動 / 音声データベース |
Research Abstract |
音声コーパスの設計、収集環境の整備、収集機材の調査選定を行うと共に、既存の話者認識手法のツール化、及び新しい話者認識手法の研究を実施した。項目毎の研究実績を以下に示す。 (1A)多数話者長期間音声コーパスの構築:録音のための防音室を作成した。また、いくつかの録音機器候補の測定を行い、録音に用いるマイクロホンを決定した。 (1B)少数話者の長・短期間音声コーパスの構築:話者1名の毎週1日、朝・昼・夕の音声収録を実施した。 (2)話者認識手法の評価と体系化:VQに基づく話者認識手法および音声入出力部のライブラリをLinux上で作成した。また、GMM、SVMに基づく話者認識手法のツール化に着手した。 (3)話者性の抽出及び話者内変動のモデル化:主成分分析に基づく音韻性と話者性の分離手法を科学警察研究所が構築した『大規模話者骨導音声データベース』を用い評価し、提案手法の有効性を統計的な有意性をもって示した。また、『少数話者の長・短期間音声コーパス』を用い時期差に伴う話者内変動の大きい成分の特定を進め、それらの成分を使わないことで時期差のあるデータに対し認識率向上の見通しを得た。 (4)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討:Soft Margin Estimation(SME)と呼ばれる識別学習手法を話者モデルの学習に用いることを検討した。23人の各20秒程度の音声で学習に2.8GHzのCPU(4コア)で20時間程度を要したものの、パラメータの調整により最尤学習と比較し話者識別率の向上を確認した。また、話者照合のためのスコア正規化法として順位統計量を用いる検討を進め、従来のスコア正規化法に比べ照合精度の向上を確認した。 (5)法科学における話者照合の有効性の検討:計算機で候補話者を予備選択し、人手により詳細な照合を行う手法を実現するために、Nベスト以内に正解話者を含める手法の検討を進めた。
|
Research Products
(9 results)