2013 Fiscal Year Annual Research Report
長期間収録音声コーパスに基づく話者内音声変動に頑健な話者認識手法の研究
Project/Area Number |
21300060
|
Research Institution | Chiba University |
Principal Investigator |
黒岩 眞吾 千葉大学, 融合科学研究科(研究院), 教授 (20333510)
|
Co-Investigator(Kenkyū-buntansha) |
柘植 覚 大同大学, 情報学部, 准教授 (00325250)
長内 隆 科学警察研究所, 法科学第四部, 部付主任研究官 (70392264)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
Project Period (FY) |
2009-04-01 – 2014-03-31
|
Keywords | 話者認識 / 話者照合 / 話者識別 / 話者内音声変動 / 長期間収録音声コーパス / AWA-LTR / 法科学 / 音声特徴量 |
Research Abstract |
(1)音声コーパスの構築:少数話者の長・短期間音声コーパスである『AWA長期間収録音声コーパス』として、1名の話者の週 1回、朝・昼・夕、各15分の収録を実施した。また、国立情報学研究所(NII)の支援により現在までに収録した話者7名、収録期間2年~10年のコーパス化を進めた(2014年度中にNIIを通じ公開・配布の予定)。また、同コーパスのホームページを作成した。 (2)話者性の抽出及び話者内音声変動のモデル化:話者内音声変動モデルをGMM-SVM法に適用し有効性を確認した。さらに、音素毎に部分空間を構成し話者内音声変動をモデル化する手法を構築しテキスト指定型話者照合で有効性を確認した。また、『AWA長期間収録音声コーパス』の詳細な分析を行い、長期的な音声変動以外にも、朝・昼・夕、発声開始時と10分程度発声を続けた後での変動を観測した。また、話者が感情を込めて発声した音声を収集し特徴量の変化を調査すると共に感情認識手法も検討した。 (3)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討:昨年度提案した、深層学習に基づくニューラルネットワークを用いた残響に頑健な特徴抽出手法の有効性を確認すると共に、NIST-SREタスクにおいてi-vectorとニューラルネットを統合した新たな話者認識手法の検討を行った。また、重なりを含む3者対話音声における特定話者の発声区間検出タスクで、照合・適応の繰り返し手法を提案し精度の向上を確認した。さらに、Missing Feature Theoryを用いた少ない音声データにも頑健な話者照合手法を提案した。 (4)法科学における話者照合の有効性の検討:法科学分野における話者認識において、人間の聴覚及び視覚による話者認識性能と機械による認識性能を比較し、その特徴を明らかとした。また、母語話者・非母語話者の識別手法及び性別識別手法でプロソディ情報の有効性を示すと共に、母音の無性化等、話者の出身地を識別可能な特徴を明らかにした。
|
Current Status of Research Progress |
Reason
25年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
25年度が最終年度であるため、記入しない。
|
Research Products
(22 results)