本研究では、話者認識技術の法科学的応用に際し、冤罪に直結するため避けなければならない詐称者受理による認識誤りを低減することを目的とした話者認識手法の提案を目指す。提案手法は、血液型による分類のように音声を大局的に分類可能であれば、同一の分類に属した場合、同一人か別人かの判定は困難となるもの、異なる分類に属した場合、別人の判定は容易となることを利用する。 法科学的な応用を考えた場合、電話音声など低品質な音声データを対象とする必要がある。そのため音声の分類に用いる音響特徴量には耐雑音性に優れ、分類の基盤となる音声の生成から聴取に至る一連の過程を統一的に考察可能なフォルマントに注目した。フォルマントの抽出はarx分析によりおこない、抽出の対象とした音声データは我々が構築したデータベースに収録されている18~79歳の男性313名と女性319名が発話した5母音である。さらに、低音質な音声データであっても安定したフォルマント抽出を可能とするため、耐雑音性に優れた人間の聴覚機構を参考としたフォルマント抽出手法の提案を行った。提案した手法では、フォルマント抽出をケプストラムパラメータの線型結合、もしくは非線形結合から行う。その結果、フォルマントの高精度な抽出には、非線形性が有効であることが明らかとなった。さらに抽出したフォルマントを用いた音声の分類能力についての検討を進めている。なお、本研究で整備を行った音声データベースに関し、論文を投稿し受理された。
|