研究課題/領域番号 |
21300060
|
研究機関 | 千葉大学 |
研究代表者 |
黒岩 眞吾 千葉大学, 大学院・融合科学研究科, 教授 (20333510)
|
研究分担者 |
柘植 覚 大同大学, 情報学部, 准教授 (00325250)
長内 隆 科学警察研究所, 法科学第四部, 室長 (70392264)
篠崎 隆宏 千葉大学, 大学院・融合科学研究科, 助教 (80447903)
|
キーワード | 音声学 / 話者認識 / 話者識別 / 話者照合 / 音声認証 / 話者内変 / 音声データベース / 順位統計量 |
研究概要 |
音声コーパスの収集、既存の話者認識手法のツール化、及び新しい話者認識手法の研究を実施した。項目毎の研究実績を以下に示す。 (1A)多数話者長期間音声コーパスの構築:60名の話者が、約1か月ごとに延べ4回(1回あたりの発声時間4分)の発声を話者の家庭内で行ったデータを収集した。 (1B)少数話者の長・短期間音声コーパスの構築:話者1名の毎週1日、朝・昼・夕の音声収録を実施した。また、1話者1年分の音声データを外注によりファイリングを行い、『AWA長期間収録音声コーパス』として、国立情報学研究所より公開するための準備を進めた(2012年4月公開予定) (2)話者認識手法の評価と体系化:GMM-SuperVector(SV)法による話者照合環境の構築及び話者照合実験を行い、登録音声が約30秒以上あれば、従来のベースライン(UBM-MAP)よりも高い性能となることを確認した。これにより、今後の検討において、ベースラインはUBM-MAP及びGMM-SV法の2つを準備することとした。 (3)話者性の抽出及び話者内変動のモデル化:『AWA長期間収録音声コーパス』から主成分分析により、話者の時期差成分を抽出する手法について実験結果をまとめ雑誌論文とした。一方で、音韻による時期差変動の違いが明らかになったため、非線形手法の検討を開始した。 (4)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討: 順位統計量を用いた頑健な話者照合手法の実験結果をまとめ雑誌論文とした。さらに、限られた人数の話者から未知の話者のモデルを構築する疑似話者モデル構築手法及びそれに基づく話者照合手法(順位統計量を利用)を提案し、実験を進めている。 (5)法科学における話者照合の有効性の検討:法化学分野ではテキスト依存型話者認識が利用できる場面が多いことから、携帯電話音声を対象に発話内容と話者照合性能の関係を明らかにした。また、グローバル犯罪に対応していくため、日本語非母語話者の特徴を分析すると共に識別に有効なパラメータを検討した。その結果、FOパタンが有効であることが判明し、話者照合への導入も検討することとした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
音声データの収集は順調に進んでいるが、収集したデータのコーパス化において、自動切り出しによるエラーが問題となることから人手による切り出し・確認作業を行うこととしたため、コーパスの構築にやや遅延が生じている。その他の話者認識手法の評価と体系化、話者性の抽出及び話者内変動のモデル化、計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討、及び、法科学における話者照合の有効性の検討については順調に進展している。以上のことから、本研究は「おおむね順調に進展している」と判断できる。
|
今後の研究の推進方策 |
長期間収録音声コーパスの一部である『AWA長期間収録音声コーパス』(1年分のデータ)を4月に公開すると共に、ホームページを作成し利用者からの要望・意見を収集する。なお、人手による音声データの聞き直し・ファイリング作業には本研究課題の予算では賄いきれないため、「研究成果公開促進費」等の応募・活用を進めて行く。音声収録や話者認識手法の評価・体系化は昨年同様に進めて行く。また、話者性の抽出及び話者内変動のモデル化、計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討、法科学における話者照合の有効性の検討については、各々成果が上がっているため、今後、各々の研究で得られた知見・技術を統合し話者内変動に頑健な話者認識手法の確立を目指す。さらに、残響やサイン音などの混入に対し頑健な手法も検討していく。
|