研究課題/領域番号 |
18H01671
|
研究機関 | 科学警察研究所 |
研究代表者 |
長内 隆 科学警察研究所, 法科学第四部, 部長 (70392264)
|
研究分担者 |
黒岩 眞吾 千葉大学, 大学院工学研究院, 教授 (20333510)
鎌田 敏明 科学警察研究所, 法科学第四部, 室長 (10356173)
蒔苗 久則 科学警察研究所, 法科学第四部, 主任研究官 (20415441)
網野 加苗 科学警察研究所, 法科学第四部, 研究員 (70630698)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 音声合成 / 話者認識 / 犯罪捜査支援 / 機械学習 / 音声学 |
研究実績の概要 |
人間の音声と聞き間違えるような合成音声の高品質化・高性能化は、生活を豊かにする一方で、犯罪への利用が懸念される。犯罪に利用された音声が人間の音声か合成音声かの誤判断は犯罪捜査に影響を与える。ここでは以下の点を解明することで、安心・安全な社会に寄与することを目的とする。 (1)合成音声と人間の音声の識別:合成音声の高品質化が図られているが、人間の発話を完全に模倣できているわけではない。そこで、両者の相違点を見出し、それらを指標とした識別手法について研究する。今年度は、整備した合成音声ソフトウェアを使用して、様々な音環境を含む文発話を予備実験用に作成した。波形接続による合成音声では、促音・撥音における調音結合、接近音や母音を含む連接部に不自然さが見られたが、現れ方には規則性が見られなかったので引き続き検討を行う。また識別器の違いを検討した結果、統計的判別モデルよりもDNNで識別性能が高くなることがわかった。任意の話者の音声を基に生成する合成音声ソフトウェアを整備し、その話者の肉声と比較することで合成音声との相違点の探索を試みることとしたがソフトウェアの整備にとどまった。その他、いわゆる「気付かない方言」をテキスト入力した場合、出力される合成音声は、方言としても標準語としても不自然である可能性が高いので、詐称の検出に有効と考えられることから、方言に着目した研究も行った。また法科学的利用を想定した周波数帯域を指定する比較方法について豪州の研究者と共同研究を行った。 (2)合成音声のキャラクター識別:合成音声製品には複数のキャラクター設定があり、話速、声の高さ、イントネーションなど種々の条件を調整できる。製品のキャラクターの違いを話者の違い、種々の条件による変動を話者内変動とみなしてキャラクター識別を行う。今年度は、製品の市場調査を行うとともに、合成音声データベース化の準備を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
任意の話者の音声を基に生成する合成音声ソフトウェアを整備し、その話者の肉声と比較することで合成音声との相違点の探索を試みることとしていたが、ソフトウェアの選定、取得に時間を要してしまい、相違点の探索を行うことができなかった。また、キャラクター識別に関しても、合成音声製品の市場調査を行い、製品を整備する予定でいたが、上記ソフトウェアの取得が決まらなかったので、こちらの製品の整備も進められなかった。これらについては、今年度実施する。 一方、最近の標準的な話者認識手法であるi-vectorを用いた話者認識手法を本研究でも利用することを次年度以降に実施することを考えていたが、今年度取り組むことができたことから、学習から認識にいたる一連の過程に必要なツールの整備を行った。さらに、肉声を対象としたいくつかの実験を行い、得られた結果を発表することができた。
|
今後の研究の推進方策 |
(1)合成音声と人間の音声の識別:合成音声の長時間にわたる特徴を利用した識別を検討する。例えば、息継ぎは合成音声と人間の音声の識別で有効な指標と考えられる。長時間発話を対象とし、息継ぎの検知並びに指標とする有効性について検証する。また、合成音声の文節数が多くなるにつれてイントネーション句の音調に不自然さが見られたので、この点について、自然音声との比較検討を行う。また、これまでに確認した、口腔内圧による基本周波数の変化が合成音声では見られない点についての再検証を行う。さらに合成音声と人間の音声の識別に有効な音響特徴量の検討を行う。まずはASVspoof2015で最も高い判別率を示したCQCC(Constant-Q Cepstrum)およびその拡張であるeCQCCを実装し実験を行う。さらに、音源に着目した特徴量の検討も行う。同時にLSTMなど時系列を扱う識別器の検討も行う。任意の話者の音声を基に生成する合成音声ソフトウェアを使い、肉声と合成音声の違いについて、話者内音声変動と合成音声が重ならない特徴空間を見つけることを目的とした詳細な調査も行う。 (2)合成音声のキャラクター識別:キャラクター識別実験を行うため、単語、短文などの同一発話を各アプリで生成し、音声データベースを構築する。話者認識では、i-vector などの機械学習により認識性能の改善が報告されていることから、本課題においても、それらを利用した識別を進める。
|