研究課題/領域番号 |
25350488
|
研究種目 |
基盤研究(C)
|
研究機関 | 科学警察研究所 |
研究代表者 |
長内 隆 科学警察研究所, 法科学第四部, 部付主任研究官 (70392264)
|
研究期間 (年度) |
2013-04-01 – 2018-03-31
|
キーワード | 話者認識 / 発話様式 / 時期変動 / 特徴量変換 / 犯罪捜査支援 |
研究概要 |
話者認識では、登録時と認識時の音声資料の録音や発話様式などの条件の違いが誤認識を引き起こす要因となる。このような音声資料のミスマッチの程度を図る指標の導出を試み、多様な音声資料に頑健な話者認識手法を確立することを目的とし、今年度は以下を実施した。 (1)音声データベースの整理:これまでに当研究所で4つの大規模な音声データベースを構築している。異なる電話機(黒電話、ファッション電話、携帯電話)を介して収録した3種類の音声データベースでは、録音に使用した電話機や録音条件の違い以外に収録時期差、収録回数、発話回数などにも違いがある。また以前の科研費で構築した音声データベースでは、話し方を変えて発声した音声を収録している。これらの音声データベースから、各種条件を満たす音声資料を抽出できるようにするとともに、データフォーマットを統一するなどの整理を行った。 (2)話者認識性能のベースラインの把握:整理した音声データベースのうち、単独に発声された単語発話音声を用いたテキスト依存型話者照合実験を行い、収録環境の違いが同一話者、異なる話者間の距離分布に与える影響についての予備的検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)音声データベースの整理:本研究で主として使用する既存の音声データベースをその収録方法、発話内容などの条件を満たすものを抽出できるようにファイル化した。またそのフォーマットについても、WAV形式に統一することにした。 (2)話者認識性能のベースラインの把握:まず、黒電話、ファッション電話を介して収録した音声データベースを対象とした。12次のLPCケプストラム係数を用いて単独発声単語によるテキスト依存型話者照合実験を行った。収録方法の違いでしきい値、照合率が影響を受け、特に、同一話者間の距離分布に強く影響を与える傾向が見られることを確認した。 また、上記の当初計画以外に、音声に含まれる性差に関する統計的検討、音声に含まれる話者の地域性に関する予備的検討も実施した。性差については、声の高さを示す基本周波数が典型的な特徴量であるが、それ以外に、フォルマント周波数、MFCCなども有効な特徴量であることが示された。地域性については、母音の無性化が有効な指標となる可能性が見いだされた。
|
今後の研究の推進方策 |
平成26年度は、以下の点に着目した研究を推進する。 (1)多様な音声資料に対する音響特徴量の頑健性の調査:録音条件、発話様式、時期変動など、多様な音声資料に対して、各種音響特徴量の統計的性質(平均、分散、歪度、尖度など)に着目して、それらの頑健性について検討する。特に、発話様式の違いに対する頑健性について注視する。発話様式の違いとして、話す速さ(速い、普通、遅い)、声の大きさ(大きい、普通、小さい)、高さ(高い、普通、低い)の各条件で発声した音声データベースを用いて検討する。 (2)標準化・正規化変換が音響特徴量に与える影響についての調査:標準化・正規化変換によって話者認識性能の向上が図られるが、この変換で除外される成分に録音条件などの影響を受けにくい成分が含まれる可能性があることから、それらの特性について調べる。
|
次年度の研究費の使用計画 |
消耗品等の購入を検討していたが、購入必要数の確定が年度末になってしまうことから、年度内の執行を控え、次年度に取得することにしたため。 既に、予定していた消耗品等の購入に充てた。
|