2018 Fiscal Year Annual Research Report
Development of fundamental technology for speech and sound event processing based on complementary use of air- and body-conducted sound signals
Project/Area Number |
17H01763
|
Research Institution | Nagoya University |
Principal Investigator |
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
|
Co-Investigator(Kenkyū-buntansha) |
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主任研究員 (20466402)
北岡 教英 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声等認識 |
Outline of Annual Research Achievements |
強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、以下の研究課題に取り組んだ。 強調グループの研究実績:空気・体内伝導音信号を活用した音声・音源強調処理の実現に向けて、基盤技術の改善に取り組んだ。音声強調技術としては、畳み込みニューラルネットワークや敵対的生成ネットワークなどの深層学習手法を用いた音声波形モデリング技術や音声変換技術をさらに発展させ、振幅スペクトルからの高品質音声波形生成処理、合成音声波形に対する音質補正処理、同一発話対を必要としない教師無し音声変換処理,外国語発音補正処理を実現した。また、背景音に対する音声変換処理の頑健性を捉える客観指標を考案した。音源強調技術としては、各音源信号の統計的性質を事前情報として活用する枠組みに対して、条件付変分自己符号化器を用いた深層学習手法を導入し、多チャンネル音源分離処理,音声強調処理,残響抑圧処理の高精度化を達成した。 認識グループの研究実績:空気・体内伝導音信号を活用した音声・環境音認識処理の実現に向けて,基盤技術の改善に取り組んだ。自己発声音を用いた情報操作ならびに環境音認識の高精度化を目指し,多チャンネル空気伝導音信号と体内伝導音信号を相補的に活用する自己発声音強調・抑圧技術を構築した。音声認識技術としては,深層学習に基づく音声認識およびパラ言語認識の高精度化に取り組んだ。環境音認識技術としては、深層学習に基づく環境音信号から擬音語表現への変換技術の高精度化に取り組むとともに、深層波形生成モデルに基づく異常音検出技術を構築した。この他にも、体内伝導音信号を活用した嚥下音解析技術も構築した。 収録グループの研究実績:ウェアラブル型の多チャネル空気・体内伝導音収録装置を用いて、空気・体内伝導音収録に着手した。特に、自己発声音強調・抑圧処理の研究のためのデータ収録に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
強調グループに関しては、前年度にも増して、多様な基盤技術の構築および性能改善を達成することができた。特に、音声強調技術に関する研究において、当初の計画を大きく上回る進展が得られており、本研究課題で構築された基盤技術は、音声変換技術に関する国際評価会Voice Conversion Challenge 2018において極めて高い評価を得たシステムの構築に対して、大いに貢献するまでに至った。また、音源強調技術に関する研究においても、特に深層学習と従来の多チャンネル音源分離の統合において、当初の計画を上回る進展が得られた。 認識グループに関しては、当初の計画通り、空気伝導音と体内伝導音を相補的に活用する基盤技術として、自己発声音強調・抑圧処理を実現することができた。その他、音声認識、環境音認識における基盤技術の性能改善も達成することができた。 収録グループに関しては、当初の計画通り、ウェアラブル型空気・体内伝導音収録装置を用いた空気・体内伝導音収録に着手することができた。一方で、本格的な収録作業を開始するまでには至らなかった。 総合的に考えると、おおむね順調に進展していると考える。
|
Strategy for Future Research Activity |
前年度に引き続き、強調グループ、認識グループ、収録グループといった3つの研究グループを構成し、それぞれのグループにおいて以下の研究課題に取り組む。 強調グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声強調技術、ならびに、音源強調技術の研究に取り組む。音声強調技術としては、体内伝導音声を活用した音声生成機能拡張技術の改良に取り組むとともに、深層学習に基づく音声変換手法ならびに音声波形モデリング手法の改良にも取り組むことで、音声強調処理の高精度化を目指す。音源強調技術としては、各音源の統計的性質を事前情報としてモデル化する深層学習手法を改良することで,多チャネル音源分離処理の高精度化を目指す。 認識グループの計画:前年度に引き続き、空気伝導音信号と体内伝導音信号を相補的に活用した音声認識技術ならびに環境音認識技術の研究に取り組む。空気・体内伝導音信号を活用した音情報処理として,自己発声音強調・抑圧技術に対して上述の音声・音源強調技術を導入することで,自己発声音強調処理ならびに抑圧処理の高精度化を目指す。音声認識技術ならびに環境音認識技術としては、深層学習手法による教師無しデータ活用の枠組みを導入することで,認識処理の高精度化を目指す。 収録グループの計画:収録グループの計画:前年度に引き続き、ウェアラブル型の多チャネル空気/体内伝導マイクロフォンによる収録システムの改善、ならびに、空気/体内伝導音信号収録に取り組み、上述の研究において収録されたデータを活用する。
|
Research Products
(33 results)