研究課題/領域番号 |
19K11975
|
研究機関 | 大同大学 |
研究代表者 |
柘植 覚 大同大学, 情報学部, 教授 (00325250)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 話者認識 / バイオメトリクス認証 / 個人認証 / 人工音声 |
研究実績の概要 |
未来に到達するIoT(Internet of Things)時代におけるセキュリティ強化として生体情報を用いた個人認証が注目されている。特に、音声による個人認証(話者認識)は利便性が高く有効な個人認証方法の一つであると言える。しかし、音声合成技術の飛躍的な進歩により人工音声による話者認識器詐称が危惧されている。本研究では、人工音声による話者認識機器詐称の対策手法に関し研究を進める。申請期間内に日本語の人工音声コーパスを作成し申請期間終了時に一般公開する。人工音声による話者認識器詐称を対策方法の高精度化を進めるため、人工音声と実音声の相違点を明確にするとともに、人工音声による話者認識器詐称の対策手法に関して、特徴量空間の観点および判別モデルの観点で研究を進め、高精度な詐称防止方法を確立させる。 2020年度において、人工音声作成方法の検討として、フリーソフトウェアYukarinを用いた。前年度までに行っていた他の3種類の人工音声作成方法とともに、人工音声・実音声識別実験および話者認識実験を行った。人工音声・実音声の新たな識別方法として、深層学習による人工音声・実音声識別手法の検討を行った。 2020年度における話者認識実験により、人工音声が話者認識器を詐称することが可能であることを明確にし、実音声・人工音声識別実験をi-vectorを用いた深層学習による話者識別器を構築し、実施した。結果より、学習に用いた人工音声作成手法に対しては、高精度に人工音声の識別が可能であったが、未知の人工音声に作成手法に対しては識別性能が大幅に劣化することがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2019年度において、日本音響学会により構築された「新聞記事読み上げ音声コーパス」に対し、声質変換方式である「統計的声質変換方式」およびテキスト音声合成方式である「隠れマルコフモデルに基づく統計的パラメトリック音声合成方式」を用い人工音声コーパスを構築する予定であったが、人工音声作成に適した話者グループ、話者数、発声などの検討に時間がかかったうえ、「統計的声質変換方式」、「隠れマルコフモデルに基づく統計的パラメトリック音声合成方式」以外の人工音声作成法を先に検討したため、予定した全人工音声データの作成に至らなかった。英語人工音声データベースに対する話者認識実験を行い、詐称可能性が高い人工音声を特定する検討を行ったが、詳細な分析を行えていない。 2020年度において、2019年度に実施予定であった3種類の人工音声作成手法を用いた人工音声作成を優先的に行ったため、詳細な実験結果の分析が行えていない。
|
今後の研究の推進方策 |
2021年度は、前年度までに作成した人工音声データベースを用いた高精度な人工音声・実音声識別手法および人工音声が含まれる場合においても頑健な話者認識が可能な手法の検討を行う。両手法とも、深層学習に基づく手法を取り入れる予定であり、2020年度におていも取り掛かりつつある。深層学習を効率的、高速に実施するため、2020年度で高性能な計算機を購入したため、2021年度では効率的に実施できる予定である。 深層学習に用いる手法は、画像識別で有効な手法として標準的になっているResNetに基づく手法を行う予定である。そのResNetの評価関数に複数の深層距離学習を組み合わせることにより、人工音声・実音声識別に有効な距離空間を検討するとともに、人工音声が詐称データとして使用された場合においても、本人と認識しない話者認識器を構築する。
|
次年度使用額が生じた理由 |
2019年度に次年度繰越が生じたものを2020年度で使用不可能であったため、2021年度に繰越が生じた。また、2019年度、2020年度ともに新型コロナウイルスが蔓延したため、国際会議出席などがままならず、旅費に充てていた額が使用できなかった。 2021年度は、遅れている話者認識実験を高速に効率よく実施するために、新たに高精度の計算機を購入する。また、出張などは困難であるが、積極的に国際会議に投稿、参加を行い、研究内容を発表する予定である。
|