2019 Fiscal Year Annual Research Report
Detection of synthetic voice and character identification for estimation of products.
Project/Area Number |
18H01671
|
Research Institution | National Research Institute of Police Science |
Principal Investigator |
長内 隆 科学警察研究所, 法科学第四部, 部長 (70392264)
|
Co-Investigator(Kenkyū-buntansha) |
黒岩 眞吾 千葉大学, 大学院工学研究院, 教授 (20333510)
鎌田 敏明 科学警察研究所, 法科学第四部, 室長 (10356173)
蒔苗 久則 科学警察研究所, 法科学第四部, 主任研究官 (20415441)
網野 加苗 科学警察研究所, 法科学第四部, 主任研究官 (70630698)
柘植 覚 大同大学, 情報学部, 教授 (00325250)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 音声合成 / 話者認識 / 犯罪捜査支援 / 機械学習 / 音声学 |
Outline of Annual Research Achievements |
(1)合成音声と人間の音声の識別:識別可能な音響特徴量について網羅的に調査を行ったところ、発話時における声門からの息漏れに結びつけて考えられている声質である“気息性”に関連する音響特徴量ケプストラル・ピーク卓越度(cepstral peak prominence: CPP)で合成音声と人間の音声に差異が認められた。合成音声のCPPの分布は、人間の音声と比べて、双峰化の傾向を示すこと、時間変動が大きいことが示唆された。合成音声の場合、話速やピッチの条件を変えることで発話変動を与えることができるが、人間の音声の話者内変動に比べて、大きく変化しないことが示された。また、合成音声及び声質変換音声コーパスを構築し、それらを用いて話者認識実験を行った結果、合成音声や声質変換音声では誤認識が誘発され、特に、声質変換音声のほうが合成音声より識別が難しいことがわかった。その他、法科学的利用を想定した周波数帯域を指定する比較方法について豪州の研究者と共同研究を引き続き行った。 (2)合成音声のキャラクター識別:整備した音声合成ソフトウェアを用いて合成音声データベースの構築を開始した。我々が以前構築した多数話者音声データベースや多言語音声コーパスとの整合性を考慮し、同一発話による合成音声の生成を行った。話速、声の高さ、イントネーションなど種々の条件設定はアプリケーションごとに可能な設定で作成した。まだキャラクター数は少ないので、引き続き生成する。話者認識実験では、予備的ではあるが、動的計画法を用いたテキスト依存型において、肉声による話者認識と同等かそれ以上の認識性能が得られることを確認した。さらに、現在、主流の話者認識手法であるi-vector及び、d-vector、x-vectorを用いたテキスト独立型による話者認識システムの構築のための文献調査などを行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
i-vectorを用いた話者認識についての実験並びにシステム構築を検討していたが、認識システム構築に必要となる計算機の整備に遅滞が生じた。また、合成音声の長時間にわたる特徴として、“気息性”に関連する音響特徴量であるケプストラル・ピーク卓越度(cepstral peak prominence: CPP)について先に着目したため、息継ぎの検知までは検討できなかった。しかし、合成音声の識別に、息遣いに関連する特徴の有効性を示すことができたと考える。なお、合成音声が犯罪利用されるケースを想定すると、電話利用が主となると考えられる。その場合、音質の劣化が見込まれ、息使いに関連する特徴検出が困難になることが予想されるので、音質劣化時の対応についての検討も必要と考える。
|
Strategy for Future Research Activity |
(1)合成音声と人間の音声の識別:合成音声は、声の高さ、速さなどを調整できるものもあるが、人間の発話に比べると、その変動は小さいことを示した。さらに、発話スタイルの違いに由来する話者内変動の単語、音韻依存性について調査する。また、自然性の高い合成音声であっても、その音声を聴取すると、所々、違和感を覚えるフレーズが散見される。そこで、発話リズムなどに着目し、違和感を与える要因を調査する。あわせて、研究協力者として、北海道科捜研の秋田氏の協力を得て、時間領域に含まれる個人性情報の抽出を試みる。そのほか、部分空間法による合成音声の識別などについても検討する計画である。 (2)合成音声のキャラクター識別:これまでに整備した音声合成アプリケーションを用いて、キャラクターごとの合成音声データベースの拡張を図る。構築にあたっては、当所ですでに構築した多数話者音声データベースやJNASなどのコーパスに基づいた発話を選定し、さらに声の高さ、速さなどを調整して構築する。テキスト依存型、テキスト独立型の話者認識実験を実施し、キャラクター識別性能の比較、さらには、アプリケーション識別の可能性について検証する。なお、機械学習の利用にあっては、研究協力者として、科警研の岡田氏の協力を得る。音韻による識別性能に差異が生じるとしたら、どのようなフレーズを用いることが効果的かについても調べる。
|
Research Products
(10 results)