2019 Fiscal Year Research-status Report
対面コミュニケーションと同等に感情を伝えるための音声強調処理法の開発
Project/Area Number |
19K20618
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
岸田 拓也 電気通信大学, 大学院情報理工学研究科, 特任研究員 (80827907)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 声質変換 / 感情音声 |
Outline of Annual Research Achievements |
計画全体を通しての目的は「非言語情報の一つである感情が音声の音響的特徴とどの様に結びつくのかを明らかにし、音声のみのコミュニケーションで対面コミュニーションと同等に感情を伝えるための音声強調処理法を開発する」ことである。まず1)感情が表出した発話の映像・音声データベースを構築、2)データベースを用いた心理実験によって感情知覚における視聴覚間の相互作用の強さを明らかにする。次に3)感情知覚と結びつく音声の物理的特性を明らかにし、4)その物理的特性を操作して音声のみでは失われる感情知覚に関わる情報を補償する手法を開発する。以上が計画の概要である。 初年度は1)のデータベース構築が当初の計画であったが、計画開始時点での代表者の所属が、声質変換の独自技術を多数有する電気通信大学の中鹿准教授の研究室へと変わったため、3)4)に関わる音声の非言語情報のモデル化の研究を行った。成果は大きく分けて4つ挙げられる。1つ目に、音声コミュニケーションは言語学的―生理学的―音響学的段階に分解されるという概念をヒントにして、ボルツマンマシンで各段階の連鎖を表現するモデルを考案し、これを話者性の声質変換技術に応用する手法 (speech chain voice conversion: speech chain VC)を提案した。2つ目に、speech chain VCに、話者認識分野の技術を組み合わせることで、声質変換モデルの学習には用いていない話者でも変換可能な手法を提案した。3つ目に、音声が伝える話者性と感情の情報を別の話者および感情として知覚される様に同時に変換する技術 (multi-domain ARBM) を提案した。そして4つ目に、画像のスタイル変換技術で用いられる深層学習モデルのfader networksを改良し、楽譜情報を維持したまま別の楽器音に聞こえる様に変換する手法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
上述の通り、初年度の研究開始時点での所属が変わったことにより当初の研究計画とは異なる順序で研究を進めることとなった。感情が表出した発話の映像・音声のデータベースの構築を行うことはできなかったが、一方で感情の知覚と結びつく音声の物理的特性を明らかにし、感情知覚に関わる情報を補償する手法を開発するという計画に関しては、声質変換、楽器音変換の手法を複数提案できたため、大きく進展したと言える。特に、当初の計画にはなかった感情以外の非言語情報である話者性に関してもモデルを提案できたこと、感情と話者性の関係を考慮してそれらを同時に変換する考え方と手法を提案できたことは、対面コミュニケーションで伝えられる様々な非言語情報を音声だけで伝えるための音声強調処理法の開発に直接繋がる成果と考える。
|
Strategy for Future Research Activity |
映像・音声データベースの構築に関してはまだ具体的な成果が得られていないため、収録のための環境や何を収録すれば良いか等の準備を進める必要がある。現存する類似のデータベースに関する情報はいくつか収集できたため、それらのデータベースの作成手続きを参考にして本研究の目的に合わせた収録の準備を行う。 視覚から得られるはずの情報を音声のみで補償する音声強調処理技術を実現するためには、視覚情報と聴覚情報がどの様に相互作用するかを明らかとする必要がある。そのため音声データだけでなく画像や動画データも活用し、人間が映像・音声から知覚する非言語情報を推定する機械学習モデルを提案する。視覚と聴覚異なる感覚情報であっても、そこから読み取られる感情などの抽象的な情報は共通性があると考えられるので、変分オートエンコーダの様な入力情報を統合して一度中間表現置き換えるモデルが有効であると考えられる。機械学習モデルで非言語情報を高い精度で推定できる様になったならば、強調処理した音声だけを入力して、強調していない音声と映像とを同時入力したときと同じ推定結果が得られる様にモデルを学習する枠組みを用いて、音声強調処理のモデルを開発する。
|
Causes of Carryover |
感情が表出した発話の映像・音声データベース構築や心理実験に必要な機材等の物品購や実験者雇用を行わなかったため差額が生じた。研究全体を通しての予算計画に大きな変更はないため、この差額は2020年度以降にデータベース構築や心理実験のために充てる。
|
Research Products
(8 results)
-
-
-
-
-
-
-
[Presentation] Acoustic analysis of word-initial consonant clusters: a perceptual basis of English syllables2019
Author(s)
Zhang, Y., Nakajima, Y., Yu, X., Remijn, G. B., Ueda, K., Kishida, T., & Elliott M. A.
Organizer
The 35th Annual Meeting of the International Society for Psychophysics
Int'l Joint Research
-