本課題は、多様な音声資料に頑健な話者認識手法を確立することであり、誤認識を引き起こす要因として、(1)録音条件、(2)発話様式、(3)時期変動について検証する。これまで、録音条件、発話様式の違いが照合性能に与える影響について調べ、いずれにおいても、標準化・正規化変換(SNT)を施すことで影響が軽減できることを確認した。今年度は、時期変動の影響について検討した。 時期差について検証するため、男性300名が時期差2~3か月を経た3時期にわたって発話した25単語の音声を利用した。時期差がそれぞれ、時期差なし、2~3か月、4~6か月となる条件で、単語別に動的計画法によるテキスト依存型話者照合実験を行った。また今回は同じ収録環境下の実験であるが、収録環境の違いを軽減する効果があるケプストラム平均値正規化(CMN)処理の有無の条件下で、SNTの効果を調べた。 実験の結果、時期差があるほど、照合率は低下するが、2~3か月と4~6か月の差は小さかった。また無変換における照合率が最も低下し、CMNやSNTによって照合率の低下の度合いが小さくなることから、時期差の影響が軽減される可能性が示唆された。照合率は、話者内、話者間距離分布に依存するが、話者間距離分布の平均値は、時期差によらずほぼ一定の値となっていたことから、照合率の低下は、話者内距離分布の平均値の変動が大きくなるためと考えられた。しかし、SNTの適用が、話者内距離分布の変動抑制に寄与する可能性があることが示された。 上記に加えて、フォルマント帯域を指定する法科学的話者比較について継続して議論を重ねてきた。フォルマント周波数には個人性情報が含まれているが、客観的に抽出することは現状極めて困難である。そこで、陽にフォルマント周波数を抽出する代わりに、フォルマント帯域を指定し、話者の異同識別に利用する手法を検討し、その成果を国際会議で報告した。
|