• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

VOICE 2.0:音声コミュニケーションのエンリッチメント拡張

研究課題

研究課題/領域番号 20KK0233
研究機関北陸先端科学技術大学院大学

研究代表者

鵜木 祐史  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

研究分担者 赤木 正人  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
木谷 俊介  北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (70635367)
森田 翔太  福山大学, 工学部, 講師 (70780378)
研究期間 (年度) 2020-10-27 – 2025-03-31
キーワード音声コミュニケーション / エンリッチメント / 音声了解度 / 非言語情報知覚 / voice 2.0
研究実績の概要

現在,Society 5.0を目指した音声情報処理は,AI技術革新の恩恵を受け,飛躍的に進歩している.合成音声の音質は人間のものに肉薄しているが,音声コミュニケーションの本質である,話し手の情動や意図,態度といった表現豊かな音声合成には至っていない.本研究では,ヒトの音声知覚・生成メカニズムに着目し,データサイエンスとの有機的結合を図ることで,エンリッチな音声コミュニケーションの拡張(VOICE 2.0)を目指す.本研究の期待するところは,音声の明瞭さや,感情,個人性,発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して,音声コミュニケーションの付加価値を高めることにある.
本研究では,表現豊かな音声コミュニケーションを実現するために,音声の数理工学的な情報表現において,音声のエンリッチな情報を言語・非言語・パラ言語情報にそれぞれ分離し,それらを個別に制御することで,次の5点に関する音声エンリッチメント(言語情報,個人性,感情,年齢,緊迫感のエンリッチメント)を実現する.
本年度(初年度)は,課題①を中心に,他の4つの課題について研究を開始した.課題①では,音声の明瞭性と変調知覚の関係ならび明瞭性と音声生成の関係を調査し,音声明瞭化といったエンリッチメントを検討した.ここでは,雑音残響環境における変調伝達関数と音声の変調スペクトルの関係から,音声の変調スペクトルを強調することによる明瞭性の向上が可能であることを明らかにした.課題②では,音声信号の時間振幅包絡線情報(TAE)と明瞭性の関係について,TAEを構成する瞬時振幅・瞬時周波数成分が感情に係わる可能性を見出した.課題③では,スペクトル包絡線と基本周波数の時間変化情報と個人性の関係を調査し,これらが損なわれると話者性が秘匿されることがわかった.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

初年度は,研究期間が11月~3月の4か月間である.課題申請時から研究を継続して進めていたこともあり,当初案では課題①(音声の明瞭性と変調知覚の関係ならび明瞭性と音声生成の関係を調査し,音声明瞭化といったエンリッチメントを調査すること)のみであったが,他4つの課題についても先取りして検討を進めることができたため.

今後の研究の推進方策

コロナ禍のため,共同研究先であるドレスデン工科大を訪問して研究のキックオフをできなかった.そのため,メールやオンラインミーティングを活用するなど,訪問できなくても共同研究を進められるところから研究を実施した.コロナ禍のため,次年度もいつ頃に共同研究先であるドレスデン工科大を訪問できるか不明であるため,オンラインミーティングを活用して研究を継続していく.

次年度使用額が生じた理由

分担者(森田)は,研究課題実施のため,高速かつ大規模な計算ができる高性能グラフィックボート搭載のノートパソコンが必要である.そのため,GPU(RTX3080)搭載しているコストパフォーマンスに優れたRazer製の2021年モデル15型ノートパソコンを予定していた.しかしながら,世界的な半導体不足ならびに高性能グラフィックボード不足により,購入を予定していた機器を2020年度中に購入することができなかった.現在も当該機器は在庫切れが続いており,当該機種の購入が難しい場合には代替機種への変更を行い,2021年10月を目途に購入する予定である.分担者(赤木)は,計画どおり研究費を執行したが事後精算完了後に千円単位で残額が発生したため,そのまま次年度に繰り越すことにした.

  • 研究成果

    (5件)

すべて 2021 2020

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (3件)

  • [雑誌論文] Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation2021

    • 著者名/発表者名
      Yuan Weitao、Dong Bofei、Wang Shengbei、Unoki Masashi、Wang Wenwu
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 29 ページ: 807~822

    • DOI

      10.1109/TASLP.2021.3051331

    • 査読あり / オープンアクセス
  • [雑誌論文] Enhancement of speech intelligibility under noisy reverberant conditions based on modulation spectrum concept2020

    • 著者名/発表者名
      Thuan Van Ngo, Tuan Vu Ho, Masashi Unoki, Rieko Kuboy, and Masato Akagi
    • 雑誌名

      Proc. APSIPA2020

      巻: - ページ: -

    • 査読あり
  • [学会発表] 自己聴取音の印象に関する個人性の調査2021

    • 著者名/発表者名
      森田 翔太, 鳥谷 輝樹, 鵜木 祐史
    • 学会等名
      日本音響学会2021年度春季研究発表会
  • [学会発表] Audio Information Hiding in Sub-signals by deploying Singular Spectrum Analysis and Psychoacoustic Model2021

    • 著者名/発表者名
      Kasorn Galajit, Jessada Karnjana, Masashi Unoki
    • 学会等名
      電子情報通信学会EMM研究会
  • [学会発表] X-vector anonymization using regression modeling with statistical and singular value2021

    • 著者名/発表者名
      Candy Olivia Mawalim, Kasorn Galajit, Jessada Karnjana, Masashi Unoki
    • 学会等名
      電子情報通信学会EMM研究会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi