• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Development of fundamental technology for speech and sound event processing based on complementary use of air- and body-conducted sound signals

Research Project

Project/Area Number 17H01763
Research InstitutionNagoya University

Principal Investigator

戸田 智基  名古屋大学, 情報基盤センター, 教授 (90403328)

Co-Investigator(Kenkyū-buntansha) 亀岡 弘和  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主任研究員 (20466402)
北岡 教英  徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501)
Project Period (FY) 2017-04-01 – 2020-03-31
Keywords音声等認識
Outline of Annual Research Achievements

強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、それぞれのグループにおいて以下の研究課題に取り組んだ。
強調グループの研究実績:空気伝導音信号と体内伝導音信号を相補的に活用した音声強調技術ならびに音源強調技術の研究に取り組んだ。音声強調技術としては、音声生成過程の仕組みを考慮した統計的音声特徴量モデリング技術の構築に加え、畳み込みニューラルネットワークや敵対的生成ネットワークなどの深層学習手法を用いた音声波形モデリング技術や音声変換技術の構築も行った。音源強調技術としては、各音源信号の音色に関する統計的性質を事前情報として活用した音源分離、歌声分離、音声強調技術を構築した。これらの研究成果について、学術論文誌、国際会議、国内会議にて発表を行った。また、2件の招待講演を実施するとともに、1件の学生奨励賞を受賞した。
認識グループの研究実績:空気伝導音信号と体内伝導音信号を相補的に活用した音声認識技術ならびに環境音認識技術の研究に取り組んだ。音声認識技術としては、深層学習に基づく非可聴つぶやき認識技術を構築するとともに、発話者ならびに音環境情報への適応技術を構築した。環境音認識技術としては、様々な音イベントに対して共有可能な記号表現の獲得を目指し、深層学習に基づく音波形信号から擬音語表現への変換技術を構築した。これらの研究成果について、国内会議にて発表を行い、1件の学生優秀発表賞を受賞した。
収録グループの研究実績:空気伝導音信号と体内伝導音信号を相補的に活用した音声/音環境情報処理基盤の研究に用いるデータ収録に向けて、既存の空気伝導マイクロフォンおよび体内伝導マイクロフォンを使用して、ウェアラブル型の多チャネル空気・体内伝導音収録装置の試作に着手した。また、空気・体内伝導音収録の予備的検討を進めた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

強調グループに関しては、多様な基盤技術を構築し、実験的評価によりその有効性を示すことができた。特に、音声強調技術に関する研究において、当初の計画を大きく上回る進展が得られた。また、音源強調技術に関する研究においても、当初の計画を上回る進展が得られた。
認識グループに関しては、概ね当初の計画通りの進展が得られた。
収録グループに関しては、プロトタイプ収録機器の試作ならびに収録作業の実施に着手することができたものの、本格的な収録作業を開始するためには、さらなる時間を要することが分かった。
総合的に考えると、おおむね順調に進展していると考える。

Strategy for Future Research Activity

前年度に引き続き、強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、それぞれのグループにおいて以下の研究課題に取り組む。
強調グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声強調技術、ならびに、音源強調技術の研究に取り組む。前年度と同様に、幅広い基盤技術の構築を目指す。
認識グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声認識技術ならびに環境音認識技術の研究に取り組む。前年度構築した基盤技術を発展させるとともに、空気・体内伝導音信号を活用した自己発声音制御技術の構築にも着手する。
収録グループの計画:前年度の検討結果を下に、ウェアラブル型の多チャネル空気/体内伝導マイクロフォンによる収録システムの構築および改善に取り組み、構築したシステムを用いた空気/体内伝導音信号収録に着手する。

  • Research Products

    (24 results)

All 2018 2017

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (22 results) (of which Int'l Joint Research: 6 results,  Invited: 2 results)

  • [Journal Article] A vibration control method of an electrolarynx based on statistical F0 pattern prediction2017

    • Author(s)
      Kou Tanaka, Tomoki Toda, Satoshi Nakamura
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: Vol. E100-D, No. 9 Pages: 2165-2173

    • DOI

      10.1587/transinf.2016EDP7485

    • Peer Reviewed / Open Access
  • [Journal Article] Articulatory controllable speech modification based on statistical inversion and production mappings2017

    • Author(s)
      Patrick Lumban Tobing, Kazuhiro Kobayashi, Tomoki Toda
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: Vol. 25, No. 12 Pages: 2337-2350

    • DOI

      10.1109/TASLP.2017.2753583

    • Peer Reviewed
  • [Presentation] WaveNetが音声合成研究に与える影響2018

    • Author(s)
      戸田 智基
    • Organizer
      電子情報通信学会音声研究会
    • Invited
  • [Presentation] CycleGANを用いた合成音声から自然音声への波形変換2018

    • Author(s)
      田中 宏, 金子 卓弘, 北条 伸克, 亀岡 弘和
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] ゲート付きCNNを用いた深層クラスタリングによる音源分離2018

    • Author(s)
      李 莉, 亀岡 弘和
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] VAE-SPACE: 音声F0パターンの深層生成モデル2018

    • Author(s)
      田中 宏, 亀岡 弘和, 森川 一穂
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] Electrolaryngeal speech enhancement based on vocoder-free statistical voice conversion and noise suppression2018

    • Author(s)
      Mohammad Eshghi, Kazuhiro Kobayashi, Tomoki Toda
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] CycleGANを用いたパラレルデータフリー声質変換2018

    • Author(s)
      金子 卓弘, 亀岡 弘和
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] 敵対的生成ネットワークによる振幅スペクトログラムの位相復元2018

    • Author(s)
      小山田 圭佑, 亀岡 弘和, 金子 卓弘, 田中 宏, 北条 伸克, 安東 弘泰
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] A hybrid approach to electrolaryngeal speech enhancement based on log-spectral differential conversion and noise suppression2018

    • Author(s)
      Mohammad Eshghi, Kazuhiro Kobayashi, Tomoki Toda
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] 統計的手法に基づく楽曲中の歌声加工のための歌声分離法の検討2018

    • Author(s)
      山田 智也, 関 翔悟, 小林 和弘, 戸田 智基
    • Organizer
      電子情報通信学会音声研究会
  • [Presentation] 音声の声質を変換する技術とその応用2017

    • Author(s)
      戸田 智基
    • Organizer
      2017年度人工知能学会全国大会
    • Invited
  • [Presentation] Physically constrained statistical F0 prediction for electrolaryngeal speech enhancement2017

    • Author(s)
      Kou Tanaka, Hirokazu Kameoka, Tomoki Toda, Satoshi Nakamura
    • Organizer
      INTERSPEECH 2017
    • Int'l Joint Research
  • [Presentation] Speech enhancement using non-negative spectrogram models with mel-generalized cepstral regularization2017

    • Author(s)
      Li Li, Hirokazu Kameoka, Tomoki Toda, Shoji Makino
    • Organizer
      INTERSPEECH 2017
    • Int'l Joint Research
  • [Presentation] Missing component restoration for masked speech signals based on time-domain spectrogram factorization2017

    • Author(s)
      Shogo Seki, Hirokazu Kameoka, Tomoki Toda, Kazuya Takeda
    • Organizer
      The 27th IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2017)
    • Int'l Joint Research
  • [Presentation] Mel-generalized cepstral regularization for discriminative non-negative matrix factorization2017

    • Author(s)
      Li Li, Hirokazu Kameoka, Shoji Makino
    • Organizer
      The 27th IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2017)
    • Int'l Joint Research
  • [Presentation] Deep acoustic-to-articulatory inversion mapping with latent trajectory modeling2017

    • Author(s)
      Patrick Lumban Tobing, Hirokazu Kameoka, Tomoki Toda
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA ASC 2017)
    • Int'l Joint Research
  • [Presentation] An Investigation of how to design control parameters for statistical voice timbre control2017

    • Author(s)
      Kazutaka Kubo, Kazuhiro Kobayashi, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA ASC 2017)
    • Int'l Joint Research
  • [Presentation] ケプストラム距離正則化を用いた半教師ありステレオチャネル楽曲音源分離2017

    • Author(s)
      関 翔悟, 戸田 智基, 武田 一哉
    • Organizer
      情報処理学会音学シンポジウム2017
  • [Presentation] 歌声分離ならびに統計的歌声声質変換に基づく楽曲中の歌声加工2017

    • Author(s)
      山田 智也, 関 翔悟, 小林 和弘, 戸田 智基
    • Organizer
      情報処理学会音学シンポジウム2017
  • [Presentation] 実環境下サイレント音声通話に向けた統計的非可聴つぶやき強調のための外部雑音抑圧法2017

    • Author(s)
      田尻 祐介, 亀岡 弘和, 戸田 智基
    • Organizer
      第4回サイレント音声認識ワークショップ
  • [Presentation] 非可聴つぶやき認識のための深層学習に基づく音響モデリング2017

    • Author(s)
      野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
    • Organizer
      平成29年度電気・電子・情報関係学会東海支部連合大会
  • [Presentation] CTCに基づく音響イベントから擬音語表現への変換2017

    • Author(s)
      宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉
    • Organizer
      日本音響学会2017年秋季研究発表会
  • [Presentation] DNN適応に基づく非可聴つぶやき認識用話者・環境依存音響モデルの構築2017

    • Author(s)
      野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
    • Organizer
      電子情報通信学会音声研究会

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi