Speech Synthesis based on the sense of physical and psychological distance from the user

Research Project

Project/Area Number	21K17784
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61020:Human interface and interaction-related
Research Institution	National Institute of Informatics (2022) Kobe University (2021)
Principal Investigator	村上遥国立情報学研究所, 情報学プリンシプル研究系, 特任研究員 (10808801)
Project Period (FY)	2021-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords	近接学 / 音声合成 / コミュニケーション / Deep learning / HCI / VR
Outline of Research at the Start	本研究では人の返答・呼び掛け音声から物理的・心理的距離感にあたる情報表現を抽出し合成音声に付加して生成することで、AIスピーカーをはじめとした合成音声に二者間距離というコンテキスト情報をEnd-to-Endで埋め込む。具体的にはまず、複数の年齢・性別の異なる人達の呼び掛け・返答音声を物理的距離や状況設定を変化させて録音し、音声と距離ラベルを持ったデータセットを作成する。次に、データセットをVAE(Variational Autoencoder)を基とするモデルに入力し、各距離感の抽出に有効なモデル設計を行う。最終年度では人による評価で、生成音声の質とその効果に関して検証する。
Outline of Annual Research Achievements	今年度は対話時に人が物理的距離に応じて発声を変えると言う、物理的距離感に関し実証する実験を行った。今後の音声合成、分析のため音声収録も行った。二種類の検証を行い、いずれも被験者４名で１グループ、１名が発話者、３名が聴き手となり役割を交代して実施した。一つ目は聴き手が呼びかけ角度の異なる声を聞き分けられるか調べる実験で、聴き手役３名を互いに1.5m程度の間隔で発話者に背を向け横一列で並んでもらい、それに対し発話者役が中心の聴き手から1m, 3m, 4mの距離から、実験実施者が指で指示した聴き手に「こんにちは」等と呼びかけてもらうものである。この試行は各距離ごとに9回行った。聴き手役は誰が呼ばれたかの判断を指で示した。距離間隔は、固体距離、社会距離、公共距離(Hall, 1966)に位置するよう設定した。４名の被験者実験の結果、1mでは聴き手役の平均正解率は0.889、3mでは0.815であった。ところが、4mでは0.259とチャンスレベルの0.333を割り、3mから4mへの違いで急激な低下が生じた。4mでは端と中央の聴き手のどちらが呼ばれたかを間違える被験者が急増した。4mは各人に対し意識を向けなくなる公共距離であることが影響している可能性がある。二つ目は聴き手役３名を発話者役から1m, 2.5m, 4mの距離に斜め１列に並ばせ、距離感の異なる声を聞き分けられるか、一つ目と同様の実験を行った。距離感が普遍的か検証するため、日本人被験者グループ４つ、非日本語話者グループ４つの計32名の被験者に協力頂いた。呼びかける言葉を予め決め、前者は日本語で約11種類、後者は約16種類とした。結果、判別率が最も高い言葉は"Hey"で0.787、最も低い言葉は各人の母国語の「すみません」となった。いずれもチャンスレベルを大きく上回る正解率で、物理的距離により人が発声を変えている現象を実証した。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 今年度に関してはあまり遅れていないが、全研究期間では遅れている状態である。本研究申請後にコロナ禍になってしまったこと、所属機関を２回変わったことが重なり、人を対象とした倫理審査が必要な実験実施が主体であり「対面対話を録音する」ことが前提となっているこの研究を進めることが著しく困難になってしまった。研究計画時は新型コロナがまだ深刻なものだと国内で受け取られていない時期であったが、開始後は人を集めて実験を行うことに関して様子見が続いた。また、初年度の新所属先で本研究への就業環境を整えることが出来なかったため、環境や実験準備は進めていたものの研究は実質的に１年強進捗が遅れている。２年目となる今年度、コロナ禍が改善しないことから当初の計画だった対面での会話収録は諦め、代替的な手法に切り替えたこと、コロナ禍の制限が少し緩和されたことから、１年半の期間を経て研究が本格的にスタートしたという状況である。スタート後の半年間の進捗は極めて順調である。
Strategy for Future Research Activity	コロナ禍で対面した二者の会話を収録することができなくなったことに加え、研究期間中全ての年度で所属研究機関が変わったことにより、本研究は同一環境下での収録音声を元にした検証や音声合成という当初の計画の見直しをせざるを得ない状態となっている。また、本研究着手後、この研究自体が極めて萌芽的であり先行研究があまりないということが判明したため、距離感を包含した音声合成という応用研究寄りだった本研究の方針を、距離感の証明、現象の分析に切り替え、距離感自体をより検証する方針にして推進する予定である。具体的には次年度では今年度収録した音声を用いて音量やスピードなどに編集を加え、ヘッドフォンで被験者に聞いてもらい、どういった要素により遠くか近くかを判断しているのかということを解明する。また、発話者により距離感のある声のコントロールがうまい人とそうでない人がおり、聴き手役からの正解率に3割弱の差があったため、発話者側音声を分析してどの要素が距離感の表現に影響が強いのかを分析する。