• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Development of fundamental technology for speech and sound event processing based on complementary use of air- and body-conducted sound signals

Research Project

Project/Area Number 17H01763
Research InstitutionNagoya University

Principal Investigator

戸田 智基  名古屋大学, 情報基盤センター, 教授 (90403328)

Co-Investigator(Kenkyū-buntansha) 亀岡 弘和  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主任研究員 (20466402)
北岡 教英  徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501)
Project Period (FY) 2017-04-01 – 2020-03-31
Keywords音声等認識
Outline of Annual Research Achievements

強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、以下の研究課題に取り組んだ。
強調グループの研究実績:空気・体内伝導音信号を活用した音声・音源強調処理の実現に向けて、基盤技術の改善に取り組んだ。音声強調技術としては、畳み込みニューラルネットワークや敵対的生成ネットワークなどの深層学習手法を用いた音声波形モデリング技術や音声変換技術をさらに発展させ、振幅スペクトルからの高品質音声波形生成処理、合成音声波形に対する音質補正処理、同一発話対を必要としない教師無し音声変換処理,外国語発音補正処理を実現した。また、背景音に対する音声変換処理の頑健性を捉える客観指標を考案した。音源強調技術としては、各音源信号の統計的性質を事前情報として活用する枠組みに対して、条件付変分自己符号化器を用いた深層学習手法を導入し、多チャンネル音源分離処理,音声強調処理,残響抑圧処理の高精度化を達成した。
認識グループの研究実績:空気・体内伝導音信号を活用した音声・環境音認識処理の実現に向けて,基盤技術の改善に取り組んだ。自己発声音を用いた情報操作ならびに環境音認識の高精度化を目指し,多チャンネル空気伝導音信号と体内伝導音信号を相補的に活用する自己発声音強調・抑圧技術を構築した。音声認識技術としては,深層学習に基づく音声認識およびパラ言語認識の高精度化に取り組んだ。環境音認識技術としては、深層学習に基づく環境音信号から擬音語表現への変換技術の高精度化に取り組むとともに、深層波形生成モデルに基づく異常音検出技術を構築した。この他にも、体内伝導音信号を活用した嚥下音解析技術も構築した。
収録グループの研究実績:ウェアラブル型の多チャネル空気・体内伝導音収録装置を用いて、空気・体内伝導音収録に着手した。特に、自己発声音強調・抑圧処理の研究のためのデータ収録に取り組んだ。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

強調グループに関しては、前年度にも増して、多様な基盤技術の構築および性能改善を達成することができた。特に、音声強調技術に関する研究において、当初の計画を大きく上回る進展が得られており、本研究課題で構築された基盤技術は、音声変換技術に関する国際評価会Voice Conversion Challenge 2018において極めて高い評価を得たシステムの構築に対して、大いに貢献するまでに至った。また、音源強調技術に関する研究においても、特に深層学習と従来の多チャンネル音源分離の統合において、当初の計画を上回る進展が得られた。
認識グループに関しては、当初の計画通り、空気伝導音と体内伝導音を相補的に活用する基盤技術として、自己発声音強調・抑圧処理を実現することができた。その他、音声認識、環境音認識における基盤技術の性能改善も達成することができた。
収録グループに関しては、当初の計画通り、ウェアラブル型空気・体内伝導音収録装置を用いた空気・体内伝導音収録に着手することができた。一方で、本格的な収録作業を開始するまでには至らなかった。
総合的に考えると、おおむね順調に進展していると考える。

Strategy for Future Research Activity

前年度に引き続き、強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、それぞれのグループにおいて以下の研究課題に取り組む。
強調グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声強調技術、ならびに、音源強調技術の研究に取り組む。音声強調技術としては、体内伝導音声を活用した音声生成機能拡張技術の改良に取り組むとともに、深層学習に基づく音声変換手法ならびに音声波形モデリング手法の改良にも取り組むことで、音声強調処理の高精度化を目指す。音源強調技術としては、各音源の統計的性質を事前情報としてモデル化する深層学習手法を改良することで,多チャネル音源分離処理の高精度化を目指す。
認識グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声認識技術ならびに環境音認識技術の研究に取り組む。空気・体内伝導音信号を活用した音情報処理として,自己発声音強調・抑圧技術に対して上述の音声・音源強調技術を導入することで,自己発声音強調処理ならびに抑圧処理の高精度化を目指す。音声認識技術ならびに環境音認識技術としては、深層学習手法による教師無しデータ活用の枠組みを導入することで,認識処理の高精度化を目指す。
収録グループの計画:収録グループの計画:前年度に引き続き、ウェアラブル型の多チャネル空気/体内伝導マイクロフォンによる収録システムの改善、ならびに、空気/体内伝導音信号収録に取り組み、上述の研究において収録されたデータを活用する。

  • Research Products

    (33 results)

All 2019 2018

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 2 results) Presentation (30 results) (of which Int'l Joint Research: 14 results,  Invited: 2 results)

  • [Journal Article] Environmental sound processing and its applications2019

    • Author(s)
      Koichi Miyazaki, Tomoki Toda, Tomoki Hayashi, Kazuya Takeda
    • Journal Title

      IEEJ Transactions on Electronics, Information and Systems

      Volume: Vol. 14, No. 3 Pages: 340-351

    • DOI

      10.1002/tee.22868

    • Peer Reviewed / Open Access
  • [Journal Article] Stereophonic music separation based on non-negative tensor factorization with cepstral distance regularization2018

    • Author(s)
      Shogo Seki, Tomoki Toda, Kazuya Takeda
    • Journal Title

      IEICE Transactions on Fundamentals

      Volume: Vol. E101-A, No. 7 Pages: 1057-1064

    • DOI

      10.1587/transfun.E101.A.1057

    • Peer Reviewed
  • [Journal Article] RNN-LSTMによる音響ベクトル空間と文書ベクトル空間とのマッピング2018

    • Author(s)
      西村良太, 檜垣美帆, 北岡教英
    • Journal Title

      日本知能情報ファジィ学会誌

      Volume: Vol. 30, No. 4 Pages: 628-633

    • DOI

      10.3156/jsoft.30.4_628

    • Peer Reviewed / Open Access
  • [Presentation] Augmented vocal production towards new singing style development2019

    • Author(s)
      Tomoki Toda
    • Organizer
      Dagstuhl Seminar, Stimulus Talk at Seminar 19052: computational methods for melody and voice processing in music recordings
    • Int'l Joint Research / Invited
  • [Presentation] 音源クラス識別器つき多チャンネル変分自己符号化器を用いた高速セミブラインド音源分離2019

    • Author(s)
      李莉, 亀岡弘和, 牧野昭二
    • Organizer
      日本音響学会2019年春季研究発表会
  • [Presentation] 多チャンネル変分自己符号化器を用いた劣決定音源分離2019

    • Author(s)
      関 翔悟, 亀岡 弘和, 李 莉, 戸田 智基, 武田 一哉
    • Organizer
      日本音響学会2019年春季研究発表会
  • [Presentation] 多チャンネル変分自己符号化器を用いた音源分離と残響除去の統合的アプローチ2019

    • Author(s)
      井上翔太, 亀岡弘和, 李莉, 関翔悟, 牧野昭二
    • Organizer
      日本音響学会2019年春季研究発表会
  • [Presentation] 音素事後確率を利用した表現学習に基づく発話感情認識2019

    • Author(s)
      岡田 慎太郎, 安藤 厚志, 戸田 智基
    • Organizer
      日本音響学会2019年春季研究発表会
  • [Presentation] 雑音環境下における統計的声質変換の頑健性に関する調査2019

    • Author(s)
      栗田 優佑, 小林 和弘, 武田 一哉, 戸田 智基
    • Organizer
      日本音響学会2019年春季研究発表会
  • [Presentation] 波形加工に基づく統計的声質変換の外部雑音に対する頑健性2019

    • Author(s)
      栗田 優佑, 小林 和弘, 武田 一哉, 戸田 智基
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] 多チャンネル変分自己符号化器に基づく劣決定音源分離の評価2019

    • Author(s)
      関 翔悟, 亀岡 弘和, 李 莉, 戸田 智基, 武田 一哉
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] Deep clustering with gated convolutional networks2018

    • Author(s)
      Li Li, Hirokazu Kameoka
    • Organizer
      2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)
    • Int'l Joint Research
  • [Presentation] Joint separation and dereverberation of reverberant mixtures with determined multichannel non-negative matrix factorization2018

    • Author(s)
      Hideaki Kagami, Hirokazu Kameoka, Masahiro Yukawa
    • Organizer
      2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)
    • Int'l Joint Research
  • [Presentation] VAE-SPACE: Deep generative model of voice fundamental frequency contours2018

    • Author(s)
      Kou Tanaka, Hirokazu Kameoka, Kazuho Morikawa
    • Organizer
      2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)
    • Int'l Joint Research
  • [Presentation] Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeia representations2018

    • Author(s)
      Koichi Miyazaki, Tomoki Hayashi, Tomoki Toda, Kazuya Takeda
    • Organizer
      The 2018 European Signal Processing Conference (EUSIPCO 2018)
    • Int'l Joint Research
  • [Presentation] Anomalous sound event detection based on WaveNet2018

    • Author(s)
      Tomoki Hayashi, Tatsuya Komatsu, Reishi Kondo, Tomoki Toda, Kazuya Takeda
    • Organizer
      The 2018 European Signal Processing Conference (EUSIPCO 2018)
    • Int'l Joint Research
  • [Presentation] Generative adversarial network-based approach to signal reconstruction from magnitude spectrogram2018

    • Author(s)
      Keisuke Oyamada, Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, Hiroyasu Ando
    • Organizer
      The 2018 European Signal Processing Conference (EUSIPCO 2018)
    • Int'l Joint Research
  • [Presentation] Non-parallel voice conversion using cycle-consistent adversarial networks2018

    • Author(s)
      Takuhiro Kaneko, Hirokazu Kameoka
    • Organizer
      The 2018 European Signal Processing Conference (EUSIPCO 2018)
    • Int'l Joint Research
  • [Presentation] Automatic speech pronunciation correction with dynamic frequency warping-based spectral conversion2018

    • Author(s)
      Nobukatsu Hojo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko
    • Organizer
      The 2018 European Signal Processing Conference (EUSIPCO 2018)
    • Int'l Joint Research
  • [Presentation] Multi-Head Decoder for end-to-end speech recognition2018

    • Author(s)
      Tomoki Hayashi, Shinji Watanabe, Tomoki Toda, Kazuya Takeda
    • Organizer
      INTERSPEECH 2018
    • Int'l Joint Research
  • [Presentation] Mapping acoustic vector space and document vector space by RNN-LSTM2018

    • Author(s)
      Ryota Nishimura, Miho Higaki, Norihide Kitaoka
    • Organizer
      2018 IEEE 7th Global Conference on Consumer Electronics (GCCE 2018)
    • Int'l Joint Research
  • [Presentation] Self-produced speech enhancement and suppression method using air- and body-conductive microphones2018

    • Author(s)
      Moe Takada, Shogo Seki, Tomoki Toda
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2018 (APSIPA ASC 2018)
    • Int'l Joint Research
  • [Presentation] StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks2018

    • Author(s)
      Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo
    • Organizer
      2018 IEEE Workshop on Spoken Language Technology (SLT 2018)
    • Int'l Joint Research
  • [Presentation] Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks2018

    • Author(s)
      Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Hirokazu Kameoka
    • Organizer
      2018 IEEE Workshop on Spoken Language Technology (SLT 2018)
    • Int'l Joint Research
  • [Presentation] 音声変換による発声機能の拡張2018

    • Author(s)
      戸田 智基
    • Organizer
      東京大学ヒューマンオーグメンテーション学第4回セミナー
    • Invited
  • [Presentation] RNNに基づく音響ベクトル時系列の文書ベクトルへのマッピング2018

    • Author(s)
      西村良太, 檜垣美帆, 北岡教英
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] ウェアラブルな空気/体内伝導マイクロフォンを用いた自己発声音強調/抑圧法2018

    • Author(s)
      高田 萌絵, 関 翔悟, 戸田 智基
    • Organizer
      電子情報通信学会電気音響研究会
  • [Presentation] 嚥下障害診断における嚥下音からの咽頭残留判定2018

    • Author(s)
      内野 達貴, 橋詰 淳, 勝野 雅央, 戸田 智基
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] End-to-Endアプローチに基づく音イベントの擬音語表現への記号化2018

    • Author(s)
      宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] 空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法2018

    • Author(s)
      高田 萌絵, 関 翔悟, 戸田 智基
    • Organizer
      日本音響学会2018年秋季研究発表会
  • [Presentation] WaveNetに基づく振幅スペクトログラムからの波形生成2018

    • Author(s)
      関 翔悟, 林 知樹, 武田 一哉, 戸田 智基
    • Organizer
      日本音響学会2018年秋季研究発表会
  • [Presentation] End-to-End音声認識ためのMulti-Head Decoderネットワーク2018

    • Author(s)
      林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉
    • Organizer
      日本音響学会2018年秋季研究発表会
  • [Presentation] 嚥下音を利用した嚥下障害診断のための咽頭残留推定法2018

    • Author(s)
      内野 達貴, 橋詰 淳, 勝野 雅央, 戸田 智基
    • Organizer
      日本音響学会2018年秋季研究発表会

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi