2019 Fiscal Year Annual Research Report
Development of fundamental technology for speech and sound event processing based on complementary use of air- and body-conducted sound signals
Project/Area Number |
17H01763
|
Research Institution | Nagoya University |
Principal Investigator |
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
|
Co-Investigator(Kenkyū-buntansha) |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 特別研究員 (20466402)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声認識等 |
Outline of Annual Research Achievements |
強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、以下の研究課題に取り組んだ。 【強調グループ】空気・体内伝導音信号を活用した音声・音源強調基盤技術の改善に取り組んだ。音声強調基盤技術としては、耐雑音性に優れた音声波形加工処理を実現した。また、深層音声波形生成技術を発展させ、音声波形強調用ニューラルポストフィルタ、適応型拡張畳み込み層を活用したニューラルボコーダ、音声波形セグメント生成を可能とする自己回帰型ニューラルボコーダといった基盤技術を構築した。さらに、教師無し音声変換モデル学習処理や、深層系列変換に基づく音声変換処理の実現など、音声変換基盤技術を大幅に改善することに成功した。音源強調技術としては、深層音源モデルと物理的な空間モデルを併用した基盤技術を改善し、音源分離と残響抑圧の同時最適化、劣決定音源分離への拡張、音声以外の音源を対象とした強調処理を実現した。 【認識グループ】空気・体内伝導音信号を活用した音声・環境音認識基盤技術の構築に取り組んだ。自己発声音を用いた情報操作ならびに環境音認識の高精度化に向け,多チャンネル空気伝導音信号と体内伝導音信号を相補的に活用する自己発声音強調・抑圧基盤技術に対して、空気・体内伝導音声の非線形性を捉える深層音源モデルを導入することで、大幅な性能改善を達成した。音声認識技術としては,深層学習に基づくパラ言語認識において、大量のラベル無し音声データを活用した表現学習の有効性を明らかするとともに、情報操作向け単語認識基盤技術を構築した。環境音認識技術としては、深層学習に基づく異常音検出基盤技術、および、音響イベント検出基盤技術を構築した。 【収録グループ】ウェアラブル型の多チャネル空気・体内伝導音収録装置を用いて、空気・体内伝導音データ収録を進め、自己発声音強調・抑圧処理技術の実験的評価において活用した。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|