2010 Fiscal Year Annual Research Report
長期間収録音声コーパスに基づく話者内音声変動に頑健な話者認識手法の研究
Project/Area Number |
21300060
|
Research Institution | Chiba University |
Principal Investigator |
黒岩 眞吾 千葉大学, 大学院・融合科学研究科, 教授 (20333510)
|
Co-Investigator(Kenkyū-buntansha) |
柘植 覚 大同大学, 情報学部, 准教授 (00325250)
長内 隆 科学警察研究所, 法科学第四部, 室長 (70392264)
|
Keywords | 音声学 / 話者認識 / 話者識別 / 話者照合 / 音声認証 / 識別学習 / 話者内変動 / 音声データベース |
Research Abstract |
音声コーパスの収集、既存の話者認識手法のツール化、及び新しい話者認識手法の研究を実施した。項目毎の研究実績を以下に示す。 (1A)多数話者長期間音声コーパスの構築:家庭内録音用の発声リストを決定するともに収録マニュアルを作成し、18名の話者で予備的な収集を開始した。 (1B)少数話者の長・短期間音声コーパスの構築:話者1名の毎週1日、朝・昼・夕の音声収録を実施した。 (2)話者認識手法の評価と体系化:GMM及びUBM-MAPの話者認識手法をツール化した。ML学習で作成したモデに比べUBM-MAPで作成した話者モデルの性能が高かったことから、今後の検討において、ベースラインをUBM-MAPにすることとした。 (3)話者性の抽出及び話者内変動のモデル化:主成分分析に基づく音韻性と話者性の分離手法の実験結果をまとめ雑誌論文とした。また、『少数話者の長・短期間音声コーパス』及び科学警察研究所が構築した『大規模話者骨導音声データベース』から話者の時期差成分を抽出する手法を検討し、前者のデータベースに基づく手法で時期差に対する頑健性の向上を確認した。 (4)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討:Soft Margin Estimation(SME)の話者照合への適用、及び文単位での学習手法の検討を行った(従来はフレーム単位)。また、2名以上の音声が重なってしまった場合でも、特定の話者の音声が含まれる区間を抽出するための手法を検討した。 (5)法科学における話者照合の有効性の検討:VQに基づくテキスト独立型話者照合において、発声内容の共通性の指標を提案し、共通性が照合性能に与える影響を検討した。その結果、共通性が高いほど照合性能が高くなること、及び30秒程度以上あれば内容の影響を受けにくくなることを確認した。
|
Research Products
(8 results)