• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Speech Synthesis based on the sense of physical and psychological distance from the user

Research Project

Project/Area Number 21K17784
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 61020:Human interface and interaction-related
Research InstitutionTamagawa University (2023)
National Institute of Informatics (2022)
Kobe University (2021)

Principal Investigator

村上 遥  玉川大学, 脳科学研究所, 研究員 (10808801)

Project Period (FY) 2021-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords近接学 / 発声 / 対話 / コミュニケーション / 音声合成 / Deep learning / HCI / VR
Outline of Research at the Start

本研究では人の返答・呼び掛け音声から物理的・心理的距離感にあたる情報表現を抽出し合成音声に付加して生成することで、AIスピーカーをはじめとした合成音声に二者間距離というコンテキスト情報をEnd-to-Endで埋め込む。
具体的にはまず、複数の年齢・性別の異なる人達の呼び掛け・返答音声を物理的距離や状況設定を変化させて録音し、音声と距離ラベルを持ったデータセットを作成する。次に、データセットをVAE(Variational Autoencoder)を基とするモデルに入力し、各距離感の抽出に有効なモデル設計を行う。最終年度では人による評価で、生成音声の質とその効果に関して検証する。

Outline of Annual Research Achievements

本期間では"距離感"現象のうち、対話時に人が対話相手との物理的距離に応じて無意識・半意識的に発声調整を行うという"物理的距離感"について、音声にどのような特徴が現れ、聞き手はその違いをどのように認識しているか調べるべく、被験者実験と分析を行った。
実験では被験者は4人1組として1人を発話者役、他3人を聞き手役として一直線上に斜めに並んだ。最も後方にいる発話者役からそれぞれの聞き手の距離はパーソナルスペースを参考に個体距離、社会距離、公衆距離に当たる位置に立ってもらった。役はローテーションし、全員が全ポジションと役を一度ずつ担った。発話者は自身に背を向けている他3人の聞き手のうち、実験実施者から密かに示されたターゲットに対して指定された言葉で声をかけ、聞き手役は自分がターゲットだと感じれば振り返り、そうでないと感じた場合は他のターゲットが誰かを指で示した。ターゲットはランダムで毎回変更し、一つの言葉に対して9回施行を行った。被験者は日本人4チーム、英語を日常的に使う日本在住の留学生4チームで、前者では指定した呼びかける言葉は日本語のみ、後者では英語を中心とし、日本語、それぞれの被験者の母国語、犬、猫の鳴き真似等を呼びかけに含めた。
結果、聞き手役の被験者は誰が呼びかけのターゲットだったかを、どの言葉においてもチャンスレベルである0.33を2倍以上大きく超える精度で正解することができ、日本語、英語、各国語、動物の鳴き真似のいずれにおいても私たちの耳は、音声に現れる距離の違いを聞き取れていることが分かった。被験者へのインタビューでは、遠い距離ほど声が大きいだけでなく、声が高くゆっくりとしたスピードになるという感想が得られた。音声解析をしたところ、ターゲットが遠くなるほど発声者の平均ピッチ周波数は約20Hzずつ上がって行き、言葉の長さも長くなる傾向にあり、結果は被験者の回答を支持した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究計画作成時より三度所属機関が変わり、研究環境整備や倫理申請から承認が下りるまでの待機期間、新たな被験者集めなど、実質的に研究に取り組めない時期が毎年度の前半に発生し、当初予定していた研究スケジュールの3分の1程度しか実質的に取り組める時間を確保できなかったため。

Strategy for Future Research Activity

実験環境が当初の予定から大きく変わってしまったため、実施方法を重視するよりも研究の目的自体に立ち戻ることとする。今後は人数を要する被験者実験を行う方針から、現在までに得られているデータの分析を詳細に進め、量的研究よりも質的研究を重視する方向に切り替える。具体的には、現在までにすでに行った実験で発話者役の被験者が発した音声のスペクトル解析を行い、対話相手との物理的距離の違いにより発話者の音様にどのような変化傾向が見られるかを調査する。

Report

(3 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (3 results)

All 2023

All Presentation (3 results)

  • [Presentation] 対話時の物理的距離を人は話声から聞き分けられるのか?2023

    • Author(s)
      村上 遥
    • Organizer
      人工知能学会全国大会(第37回)
    • Related Report
      2023 Research-status Report
  • [Presentation] 対話時に人が距離に応じて無意識に発声を変える現象"距離感"は、普遍的か2023

    • Author(s)
      村上 遥
    • Organizer
      音学シンポジウム 2023
    • Related Report
      2023 Research-status Report
  • [Presentation] 演劇界の常識「距離感」の実証への取り組み2023

    • Author(s)
      村上 遥
    • Organizer
      HAIシンポジウム2023
    • Related Report
      2022 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi