• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

対面コミュニケーションと同等に感情を伝えるための音声強調処理法の開発

Research Project

Project/Area Number 19K20618
Research InstitutionThe University of Electro-Communications

Principal Investigator

岸田 拓也  電気通信大学, 大学院情報理工学研究科, 特任研究員 (80827907)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords声質変換 / ボルツマンマシン / 話者・音韻相互作用 / 系列表現
Outline of Annual Research Achievements

計画全体を通しての目的は「非言語情報の一つである感情が音声の音響的特徴とどの様に結びつくのかを明らかにし、音声のみのコミュニケーションで対面コミュニーションと同等に感情を伝えるための音声強調処理法を開発する」ことである。まず1)感情が表出した発話の映像・音声データベースを構築、2)データベースを用いた心理実験によって感情知覚における視聴覚間の相互作用の強さを明らかにする。次に3)感情知覚と結びつく音声の物理的特性を明らかにし、4)その物理的特性を操作して音声のみでは失われる感情知覚に関わる情報を補償する手法を開発する。以上が計画の概要である。
令和二年度は、初年度に引き続き、3)、4)に関わる音声の非言語情報のモデル化の研究を行った。初年度に提案した音声コミュニケーションにおける言語学的―生理学的―音響学的段階を模倣するボルツマンマシンをベースとする話者性の声質変換手法:Speech chain VCに関して追加検証を行い、モデルの妥当性を確認した。また、音声の音響的特徴をモデルで表現するときに話者と言語内容(音韻)の相互作用を考慮した方が話者性を変換する性能が高まると考え、話者・音韻の相互作用を考慮するモデルとしてCluster ARBMをベースとする声質変換モデルを提案した。この他に、音声特徴量系列内の長期的な時間依存関係を表現することを目的としてボルツマンマシンに自己注意機構を持たせたAttention RBMを新たに提案した。非言語情報のような発話全体を通して現れるような音響的特徴を表現するのに適したネットワークモデルを設計することができた。令和二年度では、上記研究に関して、論文誌1件、国際会議1件、国内研究会2件の研究発表を行なった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

非常事態宣言等の発令により、対面での実験の実施が困難となったため、感情が表出した発話の映像・音声のデータベースの構築を行うことができなかった。一方で、独自のニューラルネットワークモデルによって音声の特徴量を表現する研究では、新しいモデルを複数提案することができるなど、大きな進展が得られている。提案したニューラルネットワークモデルは音声だけでなく対面コミュニケーションにおける視覚情報のような別の多次元データを表現できる汎用性がある。

Strategy for Future Research Activity

視覚から得られるはずの話者の感情などの非言語情報を音声のみで補償する音声強調処理技術を実現するためには、感情の強度に着目しそれを音声の音響特徴と結びつける必要がある。ここでもニューラルネットワークによる音声の音響特徴量のモデル化が有力な方法となる。令和二年度までに蓄積したニューラルネットワークモデルの知見を基に、より表現力の高いモデルを提案することを目指す。具体的には、ボルツマンマシンと共通する特性を多く持ち、より表現力の高いモデルである深層エネルギーベースモデルで音声の音響特徴量を表現することを検討しており、令和二年度よりモデルの設計と予備的な動作確認を始めている。
映像・音声データベースの構築がここまでできていないが、対面での収録実験や心理実験の実施が困難な場合は、1) 既存のデータベースを用いて分析を行う、2)オンラインでの収録実験・心理実験に置き換えるなどで対応する。

Causes of Carryover

もともと予定していた、映像・音声データベースの構築のための収録実験を行うことができなかったため、収録機材等の物品購入費・実験のための人件費が発生しなかったこと、また、参加学会がオンラインで開催されたことにより旅費も発生しなかったことが次年度使用額が生じた主な理由である。
この状況は次年度も続くと考えられるので、既存のデータベースを用いて研究を行うことも検討する。既存データベースを購入や、ニューラルネットワークの学習を効率的に行うための計算機等に予算をあてる。

  • Research Products

    (4 results)

All 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Speech Chain VC: Linking Linguistic and Acoustic Levels via Latent Distinctive Features for RBM-Based Voice Conversion2020

    • Author(s)
      KISHIDA Takuya、NAKASHIKA Toru
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E103.D Pages: 2340~2350

    • DOI

      10.1587/transinf.2020EDP7032

    • Peer Reviewed / Open Access
  • [Presentation] Attention RBMによる音声特徴量系列の符号化と生成2021

    • Author(s)
      岸田 拓也,中鹿 亘
    • Organizer
      日本音響学会2020年秋季研究発表会
  • [Presentation] Simultaneous Conversion of Speaker Identity and Emotion Based on Multiple-Domain Adaptive RBM2020

    • Author(s)
      Kishida, T., Tsukamoto, S., Nakashika, T.
    • Organizer
      Interspeech 2020
    • Int'l Joint Research
  • [Presentation] Cluster ARBM を用いた話者・音韻相互作用分類による声質変換2020

    • Author(s)
      岸田 拓也,中鹿 亘
    • Organizer
      日本音響学会2020年秋季研究発表会

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi