2018 年度実績報告書

合成音声の検知と製品推定のためのキャラクター識別

研究課題

研究課題/領域番号	18H01671
研究機関	科学警察研究所
研究代表者	長内隆科学警察研究所, 法科学第四部, 部長 (70392264)
研究分担者	黒岩眞吾千葉大学, 大学院工学研究院, 教授 (20333510) 鎌田敏明科学警察研究所, 法科学第四部, 室長 (10356173) 蒔苗久則科学警察研究所, 法科学第四部, 主任研究官 (20415441) 網野加苗科学警察研究所, 法科学第四部, 研究員 (70630698)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	音声合成 / 話者認識 / 犯罪捜査支援 / 機械学習 / 音声学
研究実績の概要	人間の音声と聞き間違えるような合成音声の高品質化・高性能化は、生活を豊かにする一方で、犯罪への利用が懸念される。犯罪に利用された音声が人間の音声か合成音声かの誤判断は犯罪捜査に影響を与える。ここでは以下の点を解明することで、安心・安全な社会に寄与することを目的とする。（１）合成音声と人間の音声の識別：合成音声の高品質化が図られているが、人間の発話を完全に模倣できているわけではない。そこで、両者の相違点を見出し、それらを指標とした識別手法について研究する。今年度は、整備した合成音声ソフトウェアを使用して、様々な音環境を含む文発話を予備実験用に作成した。波形接続による合成音声では、促音・撥音における調音結合、接近音や母音を含む連接部に不自然さが見られたが、現れ方には規則性が見られなかったので引き続き検討を行う。また識別器の違いを検討した結果、統計的判別モデルよりもDNNで識別性能が高くなることがわかった。任意の話者の音声を基に生成する合成音声ソフトウェアを整備し、その話者の肉声と比較することで合成音声との相違点の探索を試みることとしたがソフトウェアの整備にとどまった。その他、いわゆる「気付かない方言」をテキスト入力した場合、出力される合成音声は、方言としても標準語としても不自然である可能性が高いので、詐称の検出に有効と考えられることから、方言に着目した研究も行った。また法科学的利用を想定した周波数帯域を指定する比較方法について豪州の研究者と共同研究を行った。（２）合成音声のキャラクター識別：合成音声製品には複数のキャラクター設定があり、話速、声の高さ、イントネーションなど種々の条件を調整できる。製品のキャラクターの違いを話者の違い、種々の条件による変動を話者内変動とみなしてキャラクター識別を行う。今年度は、製品の市場調査を行うとともに、合成音声データベース化の準備を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由任意の話者の音声を基に生成する合成音声ソフトウェアを整備し、その話者の肉声と比較することで合成音声との相違点の探索を試みることとしていたが、ソフトウェアの選定、取得に時間を要してしまい、相違点の探索を行うことができなかった。また、キャラクター識別に関しても、合成音声製品の市場調査を行い、製品を整備する予定でいたが、上記ソフトウェアの取得が決まらなかったので、こちらの製品の整備も進められなかった。これらについては、今年度実施する。一方、最近の標準的な話者認識手法であるi-vectorを用いた話者認識手法を本研究でも利用することを次年度以降に実施することを考えていたが、今年度取り組むことができたことから、学習から認識にいたる一連の過程に必要なツールの整備を行った。さらに、肉声を対象としたいくつかの実験を行い、得られた結果を発表することができた。
今後の研究の推進方策	（１）合成音声と人間の音声の識別：合成音声の長時間にわたる特徴を利用した識別を検討する。例えば、息継ぎは合成音声と人間の音声の識別で有効な指標と考えられる。長時間発話を対象とし、息継ぎの検知並びに指標とする有効性について検証する。また、合成音声の文節数が多くなるにつれてイントネーション句の音調に不自然さが見られたので、この点について、自然音声との比較検討を行う。また、これまでに確認した、口腔内圧による基本周波数の変化が合成音声では見られない点についての再検証を行う。さらに合成音声と人間の音声の識別に有効な音響特徴量の検討を行う。まずはASVspoof2015で最も高い判別率を示したCQCC(Constant-Q Cepstrum)およびその拡張であるeCQCCを実装し実験を行う。さらに、音源に着目した特徴量の検討も行う。同時にLSTMなど時系列を扱う識別器の検討も行う。任意の話者の音声を基に生成する合成音声ソフトウェアを使い、肉声と合成音声の違いについて、話者内音声変動と合成音声が重ならない特徴空間を見つけることを目的とした詳細な調査も行う。（２）合成音声のキャラクター識別：キャラクター識別実験を行うため、単語、短文などの同一発話を各アプリで生成し、音声データベースを構築する。話者認識では、i-vector などの機械学習により認識性能の改善が報告されていることから、本課題においても、それらを利用した識別を進める。

研究成果
(11件)

すべて 2019 2018 その他

すべて国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (8件) (うち国際学会 4件)

[国際共同研究] オーストラリア国立大学(オーストラリア)
- 国名
  オーストラリア
- 外国機関名
  オーストラリア国立大学
[雑誌論文] トランペット演奏における個人性を表す音響的特徴の分析2019
- 著者名/発表者名
  丸山翔太郎，黒岩眞吾，堀内靖雄
- 雑誌名
  
  電子情報通信学会論文誌A
  
  巻: J102-A ページ: 120～123
- 査読あり
[雑誌論文] Bone- and air-conduction speech combination method for speaker recognition2019
- 著者名/発表者名
  Tsuge Satoru、Kuroiwa Shingo
- 雑誌名
  
  International Journal of Biometrics
  
  巻: 11 ページ: 35～35
- DOI
  10.1504/IJBM.2019.096565
- 査読あり
[学会発表] 時期差のある単語発話を用いた話者照合における標準化・正規化変換の効果2018
- 著者名/発表者名
  長内隆，網野加苗，蒔苗久則，鎌田敏明
- 学会等名
  日本法科学技術学会　第24回学術集会
[学会発表] i-vector を用いた話者照合における発話長の影響2018
- 著者名/発表者名
  中村裕之，新井隆浩，上田篤，蒔苗久則，長内隆，大塚敏
- 学会等名
  日本法科学技術学会　第24回学術集会
[学会発表] 言語形態を用いた地域性推定における共通語形の影響2018
- 著者名/発表者名
  網野加苗，蒔苗久則，鎌田敏明，長内隆
- 学会等名
  日本法科学技術学会　第24回学術集会
[学会発表] Exploring sub-band cepstral distances for more robust speaker classification2018
- 著者名/発表者名
  Takashi Osanai, Yuko Kinoshita, Frantz Clermont
- 学会等名
  17th Australasian International Conferenceon Speech Science and Technology
- 国際学会
[学会発表] Forensic voice comparison using sub-band cepstral distances as features: A first attempt with vowels from 306 Japanese speakers under channel mismatch conditions2018
- 著者名/発表者名
  Yuko Kinoshita, Takashi Osanai, Frantz Clermont
- 学会等名
  17th Australasian International Conferenceon Speech Science and Technology
- 国際学会
[学会発表] Speaker Recognition in Orthogonal Complement of Time Session Variability Subspace2018
- 著者名/発表者名
  Satoru Tsuge, Shingo Kuroiwa
- 学会等名
  KES International Conference on Intelligent Interactive Multimedia Systems and Services
- 国際学会
[学会発表] AWA Long-Term Recorded Speech Corpus and Robust Speaker Recognition Method for Session Variability2018
- 著者名/発表者名
  Satoru Tsuge, Shingo Kuroiwa, Tomoko Ohsuga, Yuichi Ishimoto
- 学会等名
  Oriental COCOSDA 2018
- 国際学会
[学会発表] 聴取者が音声から受け取る感情を認識する手法の検討2018
- 著者名/発表者名
  柴尾一成,　指導教員：黒岩眞吾
- 学会等名
  電気学会東京支部主催第9回学生研究発表会

2018 年度 実績報告書

合成音声の検知と製品推定のためのキャラクター識別

研究代表者

長内 隆 科学警察研究所, 法科学第四部, 部長 (70392264)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] オーストラリア国立大学(オーストラリア)

国名

外国機関名

[雑誌論文] トランペット演奏における個人性を表す音響的特徴の分析2019

著者名/発表者名

雑誌名

[雑誌論文] Bone- and air-conduction speech combination method for speaker recognition2019

著者名/発表者名

雑誌名

DOI

[学会発表] 時期差のある単語発話を用いた話者照合における標準化・正規化変換の効果2018

著者名/発表者名

学会等名

[学会発表] i-vector を用いた話者照合における発話長の影響2018

著者名/発表者名

学会等名

[学会発表] 言語形態を用いた地域性推定における共通語形の影響2018

著者名/発表者名

学会等名

[学会発表] Exploring sub-band cepstral distances for more robust speaker classification2018

著者名/発表者名

学会等名

[学会発表] Forensic voice comparison using sub-band cepstral distances as features: A first attempt with vowels from 306 Japanese speakers under channel mismatch conditions2018

著者名/発表者名

学会等名

[学会発表] Speaker Recognition in Orthogonal Complement of Time Session Variability Subspace2018

著者名/発表者名

学会等名

[学会発表] AWA Long-Term Recorded Speech Corpus and Robust Speaker Recognition Method for Session Variability2018

著者名/発表者名

学会等名

[学会発表] 聴取者が音声から受け取る感情を認識する手法の検討2018

著者名/発表者名

学会等名

2018 年度実績報告書

長内隆科学警察研究所, 法科学第四部, 部長 (70392264)