2018 年度実施状況報告書

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

研究課題

研究課題/領域番号	17K20001
研究機関	東京工業大学
研究代表者	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
研究分担者	持橋大地統計数理研究所, 数理・推論研究系, 准教授 (80418508)
研究期間 (年度)	2017-06-30 – 2020-03-31
キーワード	音声認識 / 半教師あり学習 / 強化学習 / 教師なし学習
研究実績の概要	音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。また、書き起こしテキストを用いずにEncoder-Decoder型の音声認識システム全体を方策関数として、認識結果のスカラー評価値をもとにシステムを強化学習する方法について検討および実験を進めた。これは、クラウド上に構築された音声認識サーバーが多数のユーザーに認識サービスを提供する際に、ユーザーからのわずかなフィードバックを大量に集めることで、書き起こしを用いることなくシステム性能を向上させる応用を想定したものである。学習と共に期待報酬が増加することは理論的には保障されているものの、実際に有限のリソースのもとに学習を進めることは容易ではない。例えば、教師あり学習を行うシステムにおいて一般的なアテンション機構の利用は、学習の初期において強化学習を困難にすることが判明した。これは、アライメントの学習がうまくいかないためである。そこで、従来のアテンション機構を代替するものとしてスポーク状の構造を提案し、有効性を示した。人間にとって視覚と聴覚はそれぞれが重要であることに加えて、それらの相関の利用は学習を行う上で役立っていると考えられる。ビデオカメラに代表されるように画像と音声を同時に収録することは一般的に行われており、人手によるラベルを用いない学習において音声と画像の相関を有効利用できれば有用であると考えられる。このような目的の元、音声を手掛かりに画像中の音源を教師なしで特定する手法を提案し、有効性を示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由深層学習の進展に伴い、長らく標準的であった音声認識システムの構成方法に代わり、システム全体をニューラルネットで構成する方法がその柔軟性から急速に普及し始めている。現在は、音声認識分野において歴史的に大きな技術の転換点にある。このため本研究においても研究方法について見直しを行ったことや、新たに構築したニューラルネットを用いた認識システムについて構成の最適化に時間を費やしたため、当初の想定よりもやや進捗に遅れが出た。
今後の研究の推進方策	音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。
次年度使用額が生じた理由	音声認識システムをニューラルネットのみを用いて構成するアプローチのためのベースラインの構成や、新たな学習アルゴリズムの挙動について不明な点の調査を行うのに時間を要したことなどによる。これに伴い、一部大規模な計算を伴う実験の実施や研究発表の分の予算に次年度使用が生じた。繰り越した予算は、計算機実験を行うための計算機使用料や研究成果の発表などに用いる予定である。

研究成果
(19件)

すべて 2019 2018 その他

すべて国際共同研究 (1件) 雑誌論文 (7件) (うち国際共著 1件、査読あり 6件、オープンアクセス 3件) 学会発表 (11件)

[国際共同研究] JHU(米国)
- 国名
  米国
- 外国機関名
  JHU
[雑誌論文] Effective and Stable Neuron Model Optimization Based on Aggregated CMA-ES2019
- 著者名/発表者名
  Xu Han, Takahiro Shinozaki, Ryota Kobayashi
- 雑誌名
  
  Proc. IEEE ICASSP
  
  巻: - ページ: 1264-1268
- 査読あり
[雑誌論文] Investigation of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Track32019
- 著者名/発表者名
  Bairong Zhuang, Wenbo Wang, Takahiro Shinozaki
- 雑誌名
  
  Proc. DSTC7
  
  巻: - ページ: -
- 査読あり / オープンアクセス
[雑誌論文] 自動音声認識技術と英語教育--仕組みと研究動向，今できること・できないこと--2019
- 著者名/発表者名
  篠崎　隆宏
- 雑誌名
  
  英語教育
  
  巻: 67 ページ: 40-41
[雑誌論文] Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition2018
- 著者名/発表者名
  Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27 ページ: 77-88
- DOI
  10.1109/TASLP.2018.2871755
- 査読あり / 国際共著
[雑誌論文] Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods2018
- 著者名/発表者名
  Yilong Peng, Hayato Shibata, Takahiro Shinozaki
- 雑誌名
  
  Proc. APSIPA
  
  巻: - ページ: 1934-1939
- 査読あり / オープンアクセス
[雑誌論文] F-Measure Based End-To-End Optimization of Neural Network Keyword Detectors2018
- 著者名/発表者名
  Tomohiro Tanaka, Takahiro Shinozaki
- 雑誌名
  
  Proc. APSIPA
  
  巻: - ページ: 1456-1461
- 査読あり / オープンアクセス
[雑誌論文] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018
- 著者名/発表者名
  Taku Kato, Takahiro Shinozaki
- 雑誌名
  
  Proc. IEEE ICASSP
  
  巻: - ページ: 5759-5763
- 査読あり
[学会発表] 連続単語検出のための 2D-RNN を用いた End-to-EndDPマッチング2019
- 著者名/発表者名
  田中智宏, 篠崎隆宏
- 学会等名
  日本音響学会　2019年　春季研究発表会
[学会発表] 連続対応検出ネットワークによる音声動画からの教師なし物体セグメンテーションおよび関連学習の検討2019
- 著者名/発表者名
  田中智宏, 篠崎隆宏
- 学会等名
  日本音響学会　2019年　春季研究発表会
[学会発表] 大規模 End-to-End 音声認識システムの教師なし強化学習の実現に向けた検討2019
- 著者名/発表者名
  PengYilong, 篠崎隆宏
- 学会等名
  日本音響学会　2019年　春季研究発表会
[学会発表] Analysis of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Audio Visual Scene-Aware Dialog Track2019
- 著者名/発表者名
  王文博，庄佰融，篠崎隆宏
- 学会等名
  日本音響学会　2019年　春季研究発表会
[学会発表] I-vector Domain Adaptation Using Cycle-Consistent Adversarial Networks for Speaker Recognition2019
- 著者名/発表者名
  Yi Liu, Takahiro Shinozaki
- 学会等名
  情報処理学会 SLP-126
[学会発表] マルチゲートGRUユニットを用いた2D-RNNによるEnd-to-End始終端フリー単語検出2018
- 著者名/発表者名
  田中智宏, 篠崎隆宏
- 学会等名
  情報処理学会 SLP-125
[学会発表] Improving the audio visual scene-aware dialog system in DSTC7 by using attentional multimodal fusion and MMI objective2018
- 著者名/発表者名
  Wenbo Wang，Bairong Zhuang，Takahiro Shinozaki
- 学会等名
  情報処理学会 SLP-125
[学会発表] 音声認識システムの教師なし強化学習における報酬と報酬ノイズの影響の検討2018
- 著者名/発表者名
  PengYilong, 柴田駿人, 篠崎隆宏
- 学会等名
  日本音響学会　2018年　秋季研究発表会
[学会発表] 単語検出性能を目的関数とした単語検出器学習法の提案2018
- 著者名/発表者名
  田中智宏, 篠崎隆宏
- 学会等名
  日本音響学会　2018年　秋季研究発表会
[学会発表] 強化学習による報酬のみを用いたend-to-end 認識システム学習2018
- 著者名/発表者名
  柴田駿人, PengYilong, 篠崎隆宏
- 学会等名
  日本音響学会　2018年　秋季研究発表会
[学会発表] End-to-end音声認識システムの強化学習の検討2018
- 著者名/発表者名
  PengYilong, 柴田駿人, 篠崎隆宏
- 学会等名
  情報処理学会 SLP-123

2018 年度 実施状況報告書

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

研究代表者

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] JHU(米国)

国名

外国機関名

[雑誌論文] Effective and Stable Neuron Model Optimization Based on Aggregated CMA-ES2019

著者名/発表者名

雑誌名

[雑誌論文] Investigation of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Track32019

著者名/発表者名

雑誌名

[雑誌論文] 自動音声認識技術と英語教育--仕組みと研究動向，今できること・できないこと--2019

著者名/発表者名

雑誌名

[雑誌論文] Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods2018

著者名/発表者名

雑誌名

[雑誌論文] F-Measure Based End-To-End Optimization of Neural Network Keyword Detectors2018

著者名/発表者名

雑誌名

[雑誌論文] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018

著者名/発表者名

雑誌名

[学会発表] 連続単語検出のための 2D-RNN を用いた End-to-EndDPマッチング2019

著者名/発表者名

学会等名

[学会発表] 連続対応検出ネットワークによる音声動画からの教師なし物体セグメンテーションおよび関連学習の検討2019

著者名/発表者名

学会等名

[学会発表] 大規模 End-to-End 音声認識システムの教師なし強化学習の実現に向けた検討2019

著者名/発表者名

学会等名

[学会発表] Analysis of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Audio Visual Scene-Aware Dialog Track2019

著者名/発表者名

学会等名

[学会発表] I-vector Domain Adaptation Using Cycle-Consistent Adversarial Networks for Speaker Recognition2019

著者名/発表者名

学会等名

[学会発表] マルチゲートGRUユニットを用いた2D-RNNによるEnd-to-End始終端フリー単語検出2018

著者名/発表者名

学会等名

[学会発表] Improving the audio visual scene-aware dialog system in DSTC7 by using attentional multimodal fusion and MMI objective2018

著者名/発表者名

学会等名

[学会発表] 音声認識システムの教師なし強化学習における報酬と報酬ノイズの影響の検討2018

著者名/発表者名

学会等名

[学会発表] 単語検出性能を目的関数とした単語検出器学習法の提案2018

著者名/発表者名

学会等名

[学会発表] 強化学習による報酬のみを用いたend-to-end 認識システム学習2018

著者名/発表者名

学会等名

[学会発表] End-to-end音声認識システムの強化学習の検討2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)