2020 Fiscal Year Annual Research Report
Detection of synthetic voice and character identification for estimation of products.
Project/Area Number |
18H01671
|
Research Institution | National Research Institute of Police Science |
Principal Investigator |
長内 隆 科学警察研究所, 法科学第四部, 部長 (70392264)
|
Co-Investigator(Kenkyū-buntansha) |
黒岩 眞吾 千葉大学, 大学院工学研究院, 教授 (20333510)
柘植 覚 大同大学, 情報学部, 教授 (00325250)
鎌田 敏明 科学警察研究所, 法科学第四部, 室長 (10356173)
蒔苗 久則 科学警察研究所, 法科学第四部, 主任研究官 (20415441)
網野 加苗 科学警察研究所, 法科学第四部, 主任研究官 (70630698)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 音声合成 / 話者認識 / 犯罪捜査支援 / 機械学習 / 音声学 |
Outline of Annual Research Achievements |
(1)合成音声と人間の音声の識別:発話スタイルとして裏声に着目した。裏声の録音(男性15名、女性9名)を行い、通常発声との違いを分析した結果、基本周波数、調波構造に違いが見られた。さらに、裏声と通常発声の発話を用いて話者識別知覚実験を行い、裏声同士でも話者の違いが知覚できることを確認した。また合成音声モデル構築に用いたオリジナル録音音声と合成した音声について、基本周波数や発話タイミングを比較するための文献調査を行った。音響学会新聞読み上げコーパス(JNAS)に対する合成音声判別実験を行い、i-vectorを入力としたDNNによる実音声・合成音声判別実験の結果、合成音声作成方法が既知の場合には十分に判別可能であることを確認した。その他、オーストラリア国立大学の研究者と行っている法科学的利用を想定した周波数帯域を指定する話者比較についての研究も継続している。これは合成音声と人間の音声の違いを周波数帯域毎に調査する際に利用できると考えている。 (2)合成音声のキャラクター識別:単語音声を用い、動的計画法によるテキスト依存型キャラクター識別実験を行った。各アプリケーションで生成する標準音声を登録資料、生成条件を変えて生成した複数の音声を入力資料とした実験1と登録、入力資料を入れ替えた実験2を行った。同様の条件となるように設定した人間の音声による話者識別結果と比較したところ、合成音声によるキャラクター識別率は人間の音声よりも高くなった。特に様々な条件下で生成した複数の合成音声を登録資料とした実験2のほうが顕著であった。これは合成音声の変動は人間の音声と比べると小さいためと考えられた。また、JNASに対する合成音声を、Sproket、OpenJTalk、Yukarinの3種類で作成し、それらが入力された場合の話者認識をi-vectorベースで行い、合成音声の話者認識詐称率を求めた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナウイルス感染防止のため、幾度となく緊急事態宣言が発出され、出勤制限せざるを得なくなった。あわせてオンライン授業、オンライン会議の導入など従来することの無かった対応も生じ、結果として、研究時間の確保が困難となっている。そのため当初計画通りの実施に支障をきたす恐れがある。例えば、合成音声のキャラクター識別では、今年度、キャラクター識別実験は行えたもののアプリケーション識別まではまだ実施できていない。一方、研究分担者、研究協力者の追加により、当初計画にはなかった深層学習の利用や発話リズムに関する研究に着手できるようになった。自然性の高い合成音声であっても、その音声を聴取すると違和感を覚えるフレーズが散見されることから、発話リズムに着目し、違和感を与える要因の調査が今年度の計画であったが、まだ分析途中であるため、引き続き検証を行うこととする。
|
Strategy for Future Research Activity |
(1)合成音声と人間の音声の識別:話者認識分野ではDNNによる話者埋め込み手法が広く研究されている。この手法を用いて合成音声と人間の音声の識別に挑戦する。一般に、話者ベクトル空間における距離から同一話者か否かを判断するが、合成音声では人間の音声と比べて距離が近すぎることになるのではと予想している。また 話者内変動という観点からも合成音声と人間の音声の両者には違いが現れると考えられるので更なる検討を行う。自然性の高い合成音声であっても違和感を覚えるフレーズが散見されることから、合成音声の基本周波数、発話タイミングなど時間領域に含まれる情報に着目した分析を行ってきたが、分析途中であるため、分析を継続する。なお、発話リズムの違いについては、引き続き北海道科捜研の秋田氏を研究協力者として研究を進める。 (2)合成音声のキャラクター識別:これまでにアプリケーション16種、キャラクター数81種による単文、単語、音韻の音声を合成し、この一部を利用して研究を行ってきた。さらにアプリケーション2種、キャラクター数8種を追加し、これらによって生成した合成音声データを、キャラクター、発声内容、生成条件で分類した合成音声データベースの構築を進める。テキスト依存型キャラクター識別を実施したが、さらにアプリケーション識別が可能であることが考えられたので取り組む計画である 。また未知の合成音声から合成音声生成の条件(速さ、声の高さなど)を推定できるか否かについても検討する。また、これまでJNASに対する合成音声を生成し、合成音声の話者認識詐称率を求めてきたが、別の合成音声生成手法を追加して同様の検討を行う。科警研の岡田氏を研究分担者に加え、スペクトログラムの再配置法(reassignment)を応用した話者識別やキャラクター識別についても着手する予定である。
|