ディープラーニングに基づく音声認識の音響モデル適応の研究

研究課題

研究課題/領域番号	16K00227
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理
研究機関	山形大学
研究代表者	小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)
研究協力者	加藤正治
研究期間 (年度)	2016-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2018年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2017年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2016年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
キーワード	音声認識 / 音響モデル / ディープニューラルネットワーク / 適応技術 / 話し言葉 / 感情音声 / 音声区間検出 / ディープラーニング / 感情音声認識 / ニューラルネットワーク / 話者適応
研究成果の概要	近年ディープラーニングにもとづく音声認識が大きな成果を挙げているが，話し言葉についてはまだ十分な結果は得られていない．認識性能の低下の大きな原因として話者の個人性，多様な音響環境，多様な発話スタイルなどが挙げられる．これらを解決するために音響モデル適応を中心とした技術を検討し，認識性能の向上を図った．結果として話し言葉音声や感情音声の認識精度の向上，雑音下における音声区間検出の性能向上を達成した．
研究成果の学術的意義や社会的意義	本研究により，1)話し言葉音声認識における適応精度の向上，2)雑音下音声区間検出の精度向上，3)感情音声認識の性能向上を達成した．1)は話し言葉音声認識に限らず，異なる分野においても応用可能な適応手法で汎用性の高い技術である．2)の成果を利用してマルチモーダル対話コーパスが整備されており，当該分野の研究者にとって有益と考えられる．また3)についてもロボットと人間との会話など様々な分野に利用が可能である．以上，本研究で開発した技術は波及効果が高く，学術的，社会的意義が高いと考えられる．

報告書

(4件)

研究成果
(24件)

すべて 2019 2018 2017 2016 その他

すべて雑誌論文 (6件) (うち査読あり 6件、オープンアクセス 6件) 学会発表 (13件) (うち国際学会 1件) 備考 (5件)

[雑誌論文] ディープニューラルネットワークを用いた教師なしクロス適応による音声認識2018
- 著者名/発表者名
  冨田健斗、高木瑛、加藤正治、小坂哲夫
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J101-D 号: 8 ページ: 1190-1199
- DOI
  10.14923/transinfj.2017JDP7076
- ISSN
  1880-4535, 1881-0225
- 年月日
  2018-08-01
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Acoustic Model Adaptation for Emotional Speech Recognition Using Twitter-Based Emotional Speech Corpus2018
- 著者名/発表者名
  Kosaka Tetsuo、Aizawa Yoshitaka、Kato Masaharu、Nose Takashi
- 雑誌名
  
  Proc. of APSIPA ASC 2018
  
  巻: - ページ: 1747-1751
- DOI
  10.23919/apsipa.2018.8659756
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Improving Voice Activity Detection for Multimodal Movie Dialogue Corpus2018
- 著者名/発表者名
  Kosaka Tetsuo、Suga Ikumi、Inoue Masashi
- 雑誌名
  
  2018 IEEE 7th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 481-484
- DOI
  10.1109/gcce.2018.8574730
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Large-scale multimodal movie dialogue corpus2016
- 著者名/発表者名
  Ryu Yasuhara, Masashi Inoue, Ikumi Suga and Tetsuo Kosaka
- 雑誌名
  
  Proc. of the 18th ACM International Conference on Multimodal Interaction
  
  巻: - ページ: 414-415
- DOI
  10.1145/2993148.2998523
- 関連する報告書
  2016 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016
- 著者名/発表者名
  Y. Aizawa, M. Kato and T. Kosaka
- 雑誌名
  
  The Journal of the Acoustical Society of America
  
  巻: 140 号: 4_Supplement ページ: 2964-2964
- DOI
  10.1121/1.4969167
- 関連する報告書
  2016 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Voice activity detection in movies using multi-class deep neural networks2016
- 著者名/発表者名
  I. Suga, R. Yasuhara, M. Inoue and T. Kosaka
- 雑誌名
  
  The Journal of the Acoustical Society of America
  
  巻: 140 号: 4_Supplement ページ: 3116-3116
- DOI
  10.1121/1.4969758
- 関連する報告書
  2016 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 日本語感情音声コーパスJTESを対象とした感情認識の基礎検討2019
- 著者名/発表者名
  羽田優花，加藤正治，小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 関連する報告書
  2018 実績報告書
[学会発表] 言語モデルの改良による感情音声の認識と韻律制御声質変換の性能向上2019
- 著者名/発表者名
  佐伯和哉，加藤正治，小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 関連する報告書
  2018 実績報告書
[学会発表] 感情音声認識における音響モデル適応と声質変換への応用2018
- 著者名/発表者名
  小坂哲夫，相澤佳孝，加藤正治，能勢隆
- 学会等名
  日本音響学会秋季講演論文集
- 関連する報告書
  2018 実績報告書
[学会発表] DNNを用いた教師なしクロス適応の性能評価2018
- 著者名/発表者名
  冨田建斗，加藤正治，小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 関連する報告書
  2017 実施状況報告書
[学会発表] 自発対話音声を用いた感情認識の学習データによる検討2018
- 著者名/発表者名
  真壁大介，加藤正治，小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 関連する報告書
  2017 実施状況報告書
[学会発表] 映画からのマルチモーダル対話コーパスの作成2017
- 著者名/発表者名
  井上雅史，安原龍，菅郁巳，小坂哲夫
- 学会等名
  人工知能学会全国大会
- 関連する報告書
  2017 実施状況報告書
[学会発表] 感情音声データベースJTESを用いた感情音声認識におけるDNN-HMM音響モデル適応の検討2017
- 著者名/発表者名
  相澤佳孝，小坂哲夫，加藤正治，能勢隆
- 学会等名
  日本音響学会秋季講演論文集
- 関連する報告書
  2017 実施状況報告書
[学会発表] DNNを用いた映画の音声区間検出におけるクラス分類の検討2017
- 著者名/発表者名
  菅郁巳，小坂哲夫，井上雅史
- 学会等名
  日本音響学会秋季講演論文集
- 関連する報告書
  2017 実施状況報告書
[学会発表] 感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討2017
- 著者名/発表者名
  相澤佳孝，小坂哲夫，加藤正治，能勢隆
- 学会等名
  情報処理学会研究報告
- 関連する報告書
  2017 実施状況報告書
[学会発表] DNNによる音声認識を用いた感情音声の声質変換の検討2017
- 著者名/発表者名
  笹田拓臣，相澤佳孝, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学
- 関連する報告書
  2016 実施状況報告書
[学会発表] 高精度な初期モデルを用いた教師なしクロス適応の評価2016
- 著者名/発表者名
  冨田健斗, 高木瑛, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会秋季講演論文集
- 発表場所
  富山大学
- 年月日
  2016-09-14
- 関連する報告書
  2016 実施状況報告書
[学会発表] HMM認識・合成による感情音声の声質変換の性能向上2016
- 著者名/発表者名
  相澤佳孝, 中川由暁, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会秋季講演論文集
- 発表場所
  富山大学
- 年月日
  2016-09-14
- 関連する報告書
  2016 実施状況報告書
[学会発表] Voice Conversion of emotional speech using hidden Markov model-based speech recognition and synthesis2016
- 著者名/発表者名
  Tetsuo Kosaka, Yoshiaki Nakagawa and Masaharu Kato
- 学会等名
  Proc. of 22nd International Congress on Acoustics
- 発表場所
  Buenos Aires, Argentina
- 年月日
  2016-09-05
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[備考] 小坂研究室
- URL
  https://speech-lab.yz.yamagata-u.ac.jp/
- 関連する報告書
  2018 実績報告書
[備考] Movie Dialogue Corpus
- URL
  http://www.ice.tohtech.ac.jp/~inoue/moviedialcorpus/index.html
- 関連する報告書
  2018 実績報告書
[備考] 小坂研究室
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/
- 関連する報告書
  2017 実施状況報告書
[備考] 小坂研究室
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/index.html
- 関連する報告書
  2016 実施状況報告書
[備考] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ
- URL
  http://i.yz.yamagata-u.ac.jp/moviedialcorpus/
- 関連する報告書
  2016 実施状況報告書

ディープラーニングに基づく音声認識の音響モデル適応の研究

研究代表者

小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

報告書

研究成果

[雑誌論文] ディープニューラルネットワークを用いた教師なしクロス適応による音声認識2018

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Acoustic Model Adaptation for Emotional Speech Recognition Using Twitter-Based Emotional Speech Corpus2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Improving Voice Activity Detection for Multimodal Movie Dialogue Corpus2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Large-scale multimodal movie dialogue corpus2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Voice activity detection in movies using multi-class deep neural networks2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 日本語感情音声コーパスJTESを対象とした感情認識の基礎検討2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 言語モデルの改良による感情音声の認識と韻律制御声質変換の性能向上2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 感情音声認識における音響モデル適応と声質変換への応用2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNNを用いた教師なしクロス適応の性能評価2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自発対話音声を用いた感情認識の学習データによる検討2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 映画からのマルチモーダル対話コーパスの作成2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] 感情音声データベースJTESを用いた感情音声認識におけるDNN-HMM音響モデル適応の検討2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNNを用いた映画の音声区間検出におけるクラス分類の検討2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] 感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNNによる音声認識を用いた感情音声の声質変換の検討2017

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] 高精度な初期モデルを用いた教師なしクロス適応の評価2016

小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)

[備考] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ