人間の聴覚特性を導入した深層ニューラルネットワークによる高精度な実環境下音声認識

研究課題

研究課題/領域番号	15K00233
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理
研究機関	中部大学 (2017) 豊橋技術科学大学 (2015-2016)
研究代表者	山本一公中部大学, 工学部, 准教授 (40324230)
研究分担者	中川聖一豊橋技術科学大学, リーディング大学院教育推進機構, 特命教授 (20115893)
研究期間 (年度)	2015-04-01 – 2018-03-31
研究課題ステータス	完了 (2017年度)
配分額 *注記	4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円) 2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2016年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2015年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワード	音声認識 / 深層学習 / Deep Neural Network / 聴覚特性 / 音響特徴量 / フィルタバンク / 話者適応
研究成果の概要	現在、音声認識技術に深層学習が導入され、徐々に実用的に使われるようになってきているが、雑音環境下等での音声認識性能は未だ十分ではない。本研究の目的は、DNN (Deep Neural Network) 音響モデルに人間の聴覚特性を融合させることで、音声認識精度改善を得ることである。本研究では、人間の聴覚特性を考慮した特徴抽出フィルタバンクを深層学習により自動的に学習する手法を提案した。この手法により、不特定話者音声認識に対する音声認識精度の改善を得た。また、提案手法により適応化データ量が少ない条件下における話者適応化においても認識精度の改善が得られ、効果的であるという結果が得られた。

報告書

(4件)

研究成果
(22件)

すべて 2017 2016 2015

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (20件) (うち国際学会 11件)

[雑誌論文] 話者クラスタリングに基づく短時間発話音声認識2017
- 著者名/発表者名
  関博史、榎並大介、朱発強、山本一公、中川聖一
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J100-D 号: 1 ページ: 81-92
- DOI
  10.14923/transinfj.2016JDP7063
- ISSN
  1880-4535, 1881-0225
- 年月日
  2017-01-01
- 関連する報告書
  2016 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 複数の対話エージェントを用いた雑談指向の音声対話システム2016
- 著者名/発表者名
  藤堂祐樹, 西村良太, 山本一公, 中川聖一
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J99-D 号: 2 ページ: 188-200
- DOI
  10.14923/transinfj.2015JDP7010
- ISSN
  1880-4535, 1881-0225
- 年月日
  2016-02-01
- 関連する報告書
  2015 実施状況報告書
- 査読あり
[学会発表] DNNに基づくフィルタバンクの再学習による話者クラス適応の検討2017
- 著者名/発表者名
  関博史, 山本一公, 中川聖一
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学生田キャンパス
- 年月日
  2017-03-15
- 関連する報告書
  2016 実施状況報告書
[学会発表] 音声感情のコンテキスト情報を考慮したラベリングと認識手法の検討2017
- 著者名/発表者名
  竹部真晃, 山本一公, 中川聖一
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学生田キャンパス
- 年月日
  2017-03-15
- 関連する報告書
  2016 実施状況報告書
[学会発表] ドメイン間遷移を持つ雑談音声対話システムの検討2017
- 著者名/発表者名
  芝原優真, 山本一公, 中川聖一
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学生田キャンパス
- 年月日
  2017-03-15
- 関連する報告書
  2016 実施状況報告書
[学会発表] 講義スライド中の文章・図表を対象とする説明箇所自動推定手法の検討2017
- 著者名/発表者名
  辻村祥子, 山本一公, 中川聖一
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学生田キャンパス
- 年月日
  2017-03-15
- 関連する報告書
  2016 実施状況報告書
[学会発表] A deep neural network integrated with filterbank learning for speech recognition2017
- 著者名/発表者名
  Hiroshi Seki, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2017)
- 発表場所
  New Orleans, Louisiana, USA
- 年月日
  2017-03-05
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Lyric recognition in monophonic singing using pitch-dependent DNN2017
- 著者名/発表者名
  Dairoku Kawai, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2017)
- 発表場所
  New Orleans, Louisiana, USA
- 年月日
  2017-03-05
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Robust lecture speech translation for speech misrecognition and its rescoring effect from multiple candidates2017
- 著者名/発表者名
  Sahashi Koya, Goto Norioki, Seki Hiroshi, Yamamoto Kazumasa, Akiba Tomoyoshi, Nakagawa Seiichi
- 学会等名
  4th International Conference on Advance Informatics: Concepts, Theory and Applications (ICAICTA 2017)
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Automatic Explanation Spot Estimation Method Targeted at Text and Figures in Lecture Slides2017
- 著者名/発表者名
  Tsujimura Shoko, Yamamoto Kazumasa, Nakagawa Seiichi
- 学会等名
  INTERSPEECH 2017
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Detection of overlapping acoustic events based on NMF with shared basis vectors2017
- 著者名/発表者名
  Yamamoto Kazumasa, Ishikawa Chikara, Sahashi Koya, Nakagawa Seiichi
- 学会等名
  IEEE 6th Global Conference on Consumer Electronics (GCCE 2017)
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] 大規模データベースCSJを用いたDNNに基づくフィルタバンク学習の評価2017
- 著者名/発表者名
  関博史、山本一公、秋葉友良、中川聖一
- 学会等名
  日本音響学会2017年秋期研究発表会
- 関連する報告書
  2017 実績報告書
[学会発表] Investigation of glottal features and annotation procedure for speech emotion recognition2016
- 著者名/発表者名
  Masashi Takebe, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2016)
- 発表場所
  Jeju, Korea
- 年月日
  2016-12-13
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] 音声認識のためのDNNに基づくフィルタバンクの学習の検討2016
- 著者名/発表者名
  関博史, 山本一公, 中川聖一
- 学会等名
  日本音響学会2016年秋季研究発表会
- 発表場所
  富山大学五福キャンパス
- 年月日
  2016-09-14
- 関連する報告書
  2016 実施状況報告書
[学会発表] Effect of sympathetic relation and unsympathetic relation in multi-agent spoken dialogue system2016
- 著者名/発表者名
  Yuma Shibahara, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  International Conference on Advanced Infomatics: Concepts, Theory and Applications (ICAICTA 2016)
- 発表場所
  Jeju, Korea
- 年月日
  2016-08-17
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Speech analysis of sung-speech and lyric recognition in monophonic singing2016
- 著者名/発表者名
  Dairoku Kawai, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 発表場所
  Shanghai, China
- 年月日
  2016-03-20
- 関連する報告書
  2015 実施状況報告書
- 国際学会
[学会発表] 畳み込みニューラルネットワークの教師なし逐次適応学習の検討2016
- 著者名/発表者名
  関博史，山本一公，中川聖一
- 学会等名
  日本音響学会
- 発表場所
  桐蔭横浜大学
- 年月日
  2016-03-09
- 関連する報告書
  2015 実施状況報告書
[学会発表] NMFによる任意の音楽重畳音声の認識2016
- 著者名/発表者名
  橋本尚亮，山本一公，中川聖一
- 学会等名
  日本音響学会
- 発表場所
  桐蔭横浜大学
- 年月日
  2016-03-09
- 関連する報告書
  2015 実施状況報告書
[学会発表] 歌声音声の特徴分析とピッチ特徴量を考慮した歌詞認識の検討2016
- 著者名/発表者名
  川井大陸，山本一公，中川聖一
- 学会等名
  日本音響学会
- 発表場所
  桐蔭横浜大学
- 年月日
  2016-03-09
- 関連する報告書
  2015 実施状況報告書
[学会発表] Speech recognition based on Itakura-Saito divergence and dynamics / sparseness constraints from mixed sound of speech and music by non-negative matrix factorization2015
- 著者名/発表者名
  Naoaki Hashimoto, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 発表場所
  Hong Kong
- 年月日
  2015-12-16
- 関連する報告書
  2015 実施状況報告書
- 国際学会
[学会発表] Deep neural network based acoustic model using speaker-class information for short time utterance2015
- 著者名/発表者名
  Hiroshi Seki, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 発表場所
  Hong Kong
- 年月日
  2015-12-16
- 関連する報告書
  2015 実施状況報告書
- 国際学会
[学会発表] Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction2015
- 著者名/発表者名
  Akihiro Abe, Kazumasa Yamamoto, Seiichi Nakagawa
- 学会等名
  INTERSPEECH
- 発表場所
  Dresden, Germany
- 年月日
  2015-09-06
- 関連する報告書
  2015 実施状況報告書
- 国際学会

人間の聴覚特性を導入した深層ニューラルネットワークによる高精度な実環境下音声認識

研究代表者

山本 一公 中部大学, 工学部, 准教授 (40324230)

4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)

報告書

研究成果

[雑誌論文] 話者クラスタリングに基づく短時間発話音声認識2017

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 複数の対話エージェントを用いた雑談指向の音声対話システム2016

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] DNNに基づくフィルタバンクの再学習による話者クラス適応の検討2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 音声感情のコンテキスト情報を考慮したラベリングと認識手法の検討2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] ドメイン間遷移を持つ雑談音声対話システムの検討2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 講義スライド中の文章・図表を対象とする説明箇所自動推定手法の検討2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] A deep neural network integrated with filterbank learning for speech recognition2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Lyric recognition in monophonic singing using pitch-dependent DNN2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Robust lecture speech translation for speech misrecognition and its rescoring effect from multiple candidates2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automatic Explanation Spot Estimation Method Targeted at Text and Figures in Lecture Slides2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Detection of overlapping acoustic events based on NMF with shared basis vectors2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模データベースCSJを用いたDNNに基づくフィルタバンク学習の評価2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Investigation of glottal features and annotation procedure for speech emotion recognition2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 音声認識のためのDNNに基づくフィルタバンクの学習の検討2016

著者名/発表者名

山本一公中部大学, 工学部, 准教授 (40324230)