研究課題/領域番号 |
21300060
|
研究機関 | 千葉大学 |
研究代表者 |
黒岩 眞吾 千葉大学, 融合科学研究科(研究院), 教授 (20333510)
|
研究分担者 |
柘植 覚 大同大学, 情報学部, 准教授 (00325250)
長内 隆 科学警察研究所, 法科学第四部, 室長 (70392264)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
研究期間 (年度) |
2009-04-01 – 2014-03-31
|
キーワード | 話者認識 / 話者照合 / 話者識別 / 話者内音声変動 / 長期間収録音声コーパス / AWA-LTR / SVM / 法科学 |
研究概要 |
(1A)多数話者長期間音声コーパスの構築:一昨年度より開始した一般家庭内環境での収録を引き続き行っている。現在までに140人の音声データ(発声期間回数1~7)を収集した1 (1B)少数話者の長・短期間音声コーパスの構築:2003年より行っている1名の話者(研究代表者)の週1回、朝・昼・夕の各15分程度の収録を引き続き行った。また、2010年度に収集した1年分・1名のデータを『AWA長期間収録音声コーパス(AWA-LTR)』との名称で国立情報学研究所を通じ公開し、配布を開始した。 (2)話者性の抽出及び話者内変動のモデル化:GMMスーパーベクター(GMM-SVM)法に基づく話者照合のためのUBM構築手法、スコア正規化手法等を検討し精度の高いGMM-SVM法のベースラインを作成した。現在、話者内変動モデルを同手法に適用する部分を作成中である。また、腹式発声時と胸式発声時の音声がパワースペクトル上でも変形することを明らかにした。 (3)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討:疑似話者モデルがGMM-SVMでは性能の改善につながらないことが明らかとなった。一方で、マイクからの距離の違い等に起因する残響等を含む変形を、ディープラーニングを用いたニューラルネットにより補償する手法を検討し、その可能性を明らかにした。また、複数話者の音声が重なった場合でも、照合と学習を繰り返すことで、含まれている話者のすべてを検出可能な手法を提案した。 (4)法科学における話者照合の有効性の検討:話者内変動が少なく, 話者間・方言間差が大きい指標である調音速度を用いた母語識別実験を行った結果、モーラを基準とした特徴量で良好な結果が得られた。また、母音の無声化頻度が話者の出身地推定に利用できる可能性を明らかにした。今後、これらの新しい特徴量を計算機による話者認識へも適用することを検討する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実施項目ごとの達成度を以下に示す。 (1) 話者認識研究で利用可能な大規模音声コーパスの構築:少数話者の長・短期間音声コーパスの収集は計画通り進んでいる。また、1名の1年分の発声をコーパス化し『AWA長期間収録音声コーパス(AWA-LTR)』として国立情報学研究所から公開も行った。全収集データのコーパス化及び公開にあたっては本研究予算のみでは不足するため、国立情報学研究所に支援を求め、平成25年度には実施したい。一方、多数話者長期間音声コーパスの構築も予算規模に見合ったデータの収集を順調に続けている。 (2) 話者内音声変動、音韻性、環境要因、話者性を分離可能な音響特徴空間分離手法の開発では、手法の考案、開発を続けると同時に、世界的なトレンドに追随するためのベースライン環境の構築を続けている。当初計画していた日本語データベースに対しては、計画通りの性能が達成できている。今後、米語等への対応を急ぎ、国際コンテストへの参加を行う必要がある。 (3) 計算量にとらわれない高精度かつ頑健な新しい話者認識手法の開発では、ディーップラーニング、疑似話者モデル構築法などの新しい手法や、複数の話者が同時発声やスピーカーを通した音声など、新しいタスク・新しい問題への検討を進めている。 (4) 法科学の観点から、音声による個人認証の有効性と限界の検討に関しても、大規模な音声データベースに基づく、各種音響特徴量の調査に基づき有効性とその限界を明らかにしてきている。さらに、非母国語話者に対する検討も開始しており計画以上の成果が達成できている。
|
今後の研究の推進方策 |
現在までに、ほぼ計画通りに計画が進行していることから、平成25年度の計画書に記載した下記の事項を精力的に実施する。 (1A)多数話者長期間音声コーパスの構築:現在までに収集した音声データを整理し、コーパス化を進める。 (1B)少数話者の長・短期間音声コーパスの構築:研究代表者は週1回、朝・昼・夕の各15分程度の収録を引き続き行う。また、一昨年度までに収録した全データを整理し、コーパス化を目指す。また、付加情報もし、国立情報学研究所を通じ公開・配布する。(2)話者性の抽出及び話者内変動のモデル化:GMM-MAP手法で有効性が認められた話者内変動モデルをi-vector手法に適用すると共に、音素毎に異なると予想される話者内変動を部分空間毎に精密にモデル化する手法を検討する。また、話者の自発的な音声変形(感情を込める等)を含む音声を収集し、その音声変形を抽出できるパラメータとして短時間フレーム毎の特徴量に加え、発声単位での特徴パラメータを引き続き検討する。 (3)計算量にとらわれない高精度かつ頑健な新しい話者認識手法の検討:昨年度に提案した、ディープラーニングに基づくニューラルネットワークを用いた環境変動に頑健な特徴抽出手法の検討を進める。また、複数話者が同時に発声している場合でも、各々の話者を同時認識できる手法の検討を引き続き行う。さらに、複数の手法を統合したスコア正規化及び閾値設定法を検討する。 (4)法科学における話者照合の有効性の検討:法科学分野における話者認識において、人間の聴覚及び視覚による話者認識性能と機械による認識性能を比較し、人間による支援の効果について調査する。また、引き続き、母語話者・非母語話者の識別手法および性別識別手法の検討を実施する。
|