Project/Area Number |
21K17784
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61020:Human interface and interaction-related
|
Research Institution | Kobe University |
Principal Investigator |
村上 遥 神戸大学, 未来医工学研究開発センター, 特命助教 (10808801)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2021)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | コミュニケーション / 音声合成 / Deep learning / 近接学 / HCI / VR |
Outline of Research at the Start |
本研究では人の返答・呼び掛け音声から物理的・心理的距離感にあたる情報表現を抽出し合成音声に付加して生成することで、AIスピーカーをはじめとした合成音声に二者間距離というコンテキスト情報をEnd-to-Endで埋め込む。 具体的にはまず、複数の年齢・性別の異なる人達の呼び掛け・返答音声を物理的距離や状況設定を変化させて録音し、音声と距離ラベルを持ったデータセットを作成する。次に、データセットをVAE(Variational Autoencoder)を基とするモデルに入力し、各距離感の抽出に有効なモデル設計を行う。最終年度では人による評価で、生成音声の質とその効果に関して検証する。
|
Outline of Annual Research Achievements |
本研究ではAIスピーカーをはじめとした機械音声に対し、返答音声に「対話相手への意識」という要素を付加し、より親しみを感じやすいAIスピーカー音声を生成することを目的とする。コンピューター音声に文章を読ませる研究では、2016年にDeep learningを用いた手法であるWaveNetの登場により、特に英語においては人間の発話と区別がつきづらいほど発話音声の発音や抑揚が自然になっているが、音量が大きくなる、実装側が定義した感情っぽく聞こえる様に音声を加工するという点を除いて音声に変化はない。つまり、その場の状況や相手との関係性などのコンテキストで音声が変化する研究はなされていない。本研究は「人が人と話す時、対話相手との①物理的距離、②心理的距離という2つの距離感により、無意識に発話全体における発話スピード、声の大きさ・高さ、音圧等を変えてメッセージを投げかけている」という現象に注目し、AIスピーカーの対話相手から距離感コンテキストを抜き出し、AIスピーカー発話音声に付加することにより相手との物理的・心理的距離感コンテキストの埋め込みを試みるものである。本年度では、対話相手との物理的・心理的距離によって変化させる話し方の構成要素を数理モデル化するため、2名の被験者に指定した発話による対話を行ってもらい、それを録音してデータセット化し、物理的距離による変化を分析し手動で加工したものを作成することを目指していた。しかし、コロナ禍の影響により対話での録音が困難となってしまったため、本期間内でコロナ禍による制限は無くならないものと判断し、被験者にVR空間に入ってもらい対面したアバターに呼びかけるという手法での録音に切り替えることとした。現在は、VRでの実験空間を準備している。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
本年においては研究実施に必要な人の呼びかけ発声データセットを作成する予定であったが、コロナ禍の影響により、密閉空間での対面した被験者同士の会話による長時間にわたる録音が実施できなかった。 現在、VRを用いて擬似的な対面状況を作り、他者に呼びかける音声を録音する方法を模索しており、Unityを用いてVR環境を実装している。
|
Strategy for Future Research Activity |
期間中にマスクを外したコミュニケーションはできないものと考え、当初の予定であった対面した人同士の呼びかけ音声の録音を断念し、VRを用いた擬似的な対面環境における被験者の発声音声の録音に切り替える。 対話の対象相手が人、VR内の人、機械(AIスピーカー)に変わることで発声の具合に違いが出るかを同時に検証し、違いがある場合には補正して直接の対人の場合の音声に切り替える方法を探る。直接の対人での調査は、研究責任者がマスクとフェイスシールをして被験者が一方的に短時間で呼びかける方法で検証用の音声録音を行う。
3つを比較し、直接の対人への発声と差異の小さいものをデータセットとして用いる。いずれも違いがない場合には、実験内容によりVRとAIスピーカーへの呼びかけを使い分ける。
今後はVR上での活用も考え、Deep learningだけでなく、一定の音声加工による音声効果検証も進めていく。
|