2019 年度実施状況報告書

対面コミュニケーションと同等に感情を伝えるための音声強調処理法の開発

研究課題

研究課題/領域番号	19K20618
研究機関	電気通信大学
研究代表者	岸田拓也電気通信大学, 大学院情報理工学研究科, 特任研究員 (80827907)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	声質変換 / 感情音声
研究実績の概要	計画全体を通しての目的は「非言語情報の一つである感情が音声の音響的特徴とどの様に結びつくのかを明らかにし、音声のみのコミュニケーションで対面コミュニーションと同等に感情を伝えるための音声強調処理法を開発する」ことである。まず１）感情が表出した発話の映像・音声データベースを構築、２）データベースを用いた心理実験によって感情知覚における視聴覚間の相互作用の強さを明らかにする。次に３）感情知覚と結びつく音声の物理的特性を明らかにし、４）その物理的特性を操作して音声のみでは失われる感情知覚に関わる情報を補償する手法を開発する。以上が計画の概要である。初年度は１）のデータベース構築が当初の計画であったが、計画開始時点での代表者の所属が、声質変換の独自技術を多数有する電気通信大学の中鹿准教授の研究室へと変わったため、３）４）に関わる音声の非言語情報のモデル化の研究を行った。成果は大きく分けて４つ挙げられる。１つ目に、音声コミュニケーションは言語学的―生理学的―音響学的段階に分解されるという概念をヒントにして、ボルツマンマシンで各段階の連鎖を表現するモデルを考案し、これを話者性の声質変換技術に応用する手法 (speech chain voice conversion: speech chain VC)を提案した。２つ目に、speech chain VCに、話者認識分野の技術を組み合わせることで、声質変換モデルの学習には用いていない話者でも変換可能な手法を提案した。３つ目に、音声が伝える話者性と感情の情報を別の話者および感情として知覚される様に同時に変換する技術 (multi-domain ARBM) を提案した。そして４つ目に、画像のスタイル変換技術で用いられる深層学習モデルのfader networksを改良し、楽譜情報を維持したまま別の楽器音に聞こえる様に変換する手法を提案した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由上述の通り、初年度の研究開始時点での所属が変わったことにより当初の研究計画とは異なる順序で研究を進めることとなった。感情が表出した発話の映像・音声のデータベースの構築を行うことはできなかったが、一方で感情の知覚と結びつく音声の物理的特性を明らかにし、感情知覚に関わる情報を補償する手法を開発するという計画に関しては、声質変換、楽器音変換の手法を複数提案できたため、大きく進展したと言える。特に、当初の計画にはなかった感情以外の非言語情報である話者性に関してもモデルを提案できたこと、感情と話者性の関係を考慮してそれらを同時に変換する考え方と手法を提案できたことは、対面コミュニケーションで伝えられる様々な非言語情報を音声だけで伝えるための音声強調処理法の開発に直接繋がる成果と考える。
今後の研究の推進方策	映像・音声データベースの構築に関してはまだ具体的な成果が得られていないため、収録のための環境や何を収録すれば良いか等の準備を進める必要がある。現存する類似のデータベースに関する情報はいくつか収集できたため、それらのデータベースの作成手続きを参考にして本研究の目的に合わせた収録の準備を行う。視覚から得られるはずの情報を音声のみで補償する音声強調処理技術を実現するためには、視覚情報と聴覚情報がどの様に相互作用するかを明らかとする必要がある。そのため音声データだけでなく画像や動画データも活用し、人間が映像・音声から知覚する非言語情報を推定する機械学習モデルを提案する。視覚と聴覚異なる感覚情報であっても、そこから読み取られる感情などの抽象的な情報は共通性があると考えられるので、変分オートエンコーダの様な入力情報を統合して一度中間表現置き換えるモデルが有効であると考えられる。機械学習モデルで非言語情報を高い精度で推定できる様になったならば、強調処理した音声だけを入力して、強調していない音声と映像とを同時入力したときと同じ推定結果が得られる様にモデルを学習する枠組みを用いて、音声強調処理のモデルを開発する。
次年度使用額が生じた理由	感情が表出した発話の映像・音声データベース構築や心理実験に必要な機材等の物品購や実験者雇用を行わなかったため差額が生じた。研究全体を通しての予算計画に大きな変更はないため、この差額は2020年度以降にデータベース構築や心理実験のために充てる。

研究成果
(8件)

すべて 2020 2019 その他

すべて学会発表 (7件) (うち国際学会 1件) 備考 (1件)

[学会発表] Speech chain を模倣したボルツマンマシンによるワンショット多対多声質変換の検討2020
- 著者名/発表者名
  岸田拓也、中鹿亘
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] マルチタスクモデルを用いたdisentangleな学習による楽器音変換2020
- 著者名/発表者名
  荒川賢也、岸田拓也、中鹿亘
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 適応型 RBM を用いた音声情報の分離による話者と感情の同時変換2020
- 著者名/発表者名
  塚本伸、岸田拓也、中鹿亘
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] Speech chain VC: 音声コミュニケーションの言語-生理-音響連鎖を考慮する声質変換2019
- 著者名/発表者名
  岸田拓也、中鹿亘
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Fader Networks を用いた楽器音変換2019
- 著者名/発表者名
  荒川賢也、岸田拓也、中鹿亘
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] 適応型 RBM を用いたノンパラレル感情音声変換2019
- 著者名/発表者名
  塚本伸、岸田拓也、中鹿亘
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Acoustic analysis of word-initial consonant clusters: a perceptual basis of English syllables2019
- 著者名/発表者名
  Zhang, Y., Nakajima, Y., Yu, X., Remijn, G. B., Ueda, K., Kishida, T., & Elliott M. A.
- 学会等名
  The 35th Annual Meeting of the International Society for Psychophysics
- 国際学会
[備考] 岸田拓也 Takuya Kishida
- URL
  https://kishidatakuya0119.wixsite.com/mysite

2019 年度 実施状況報告書

対面コミュニケーションと同等に感情を伝えるための音声強調処理法の開発

研究代表者

岸田 拓也 電気通信大学, 大学院情報理工学研究科, 特任研究員 (80827907)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Speech chain を模倣したボルツマンマシンによるワンショット多対多声質変換の検討2020

著者名/発表者名

学会等名

[学会発表] マルチタスクモデルを用いたdisentangleな学習による楽器音変換2020

著者名/発表者名

学会等名

[学会発表] 適応型 RBM を用いた音声情報の分離による話者と感情の同時変換2020

著者名/発表者名

学会等名

[学会発表] Speech chain VC: 音声コミュニケーションの言語-生理-音響連鎖を考慮する声質変換2019

著者名/発表者名

学会等名

[学会発表] Fader Networks を用いた楽器音変換2019

著者名/発表者名

学会等名

[学会発表] 適応型 RBM を用いたノンパラレル感情音声変換2019

著者名/発表者名

学会等名

[学会発表] Acoustic analysis of word-initial consonant clusters: a perceptual basis of English syllables2019

著者名/発表者名

学会等名

[備考] 岸田拓也 Takuya Kishida

URL

2019 年度実施状況報告書

岸田拓也電気通信大学, 大学院情報理工学研究科, 特任研究員 (80827907)