2018 Fiscal Year Research-status Report

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

Research Project

Project/Area Number	17K20001
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	持橋大地統計数理研究所, 数理・推論研究系, 准教授 (80418508)
Project Period (FY)	2017-06-30 – 2020-03-31
Keywords	音声認識 / 半教師あり学習 / 強化学習 / 教師なし学習
Outline of Annual Research Achievements	音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。また、書き起こしテキストを用いずにEncoder-Decoder型の音声認識システム全体を方策関数として、認識結果のスカラー評価値をもとにシステムを強化学習する方法について検討および実験を進めた。これは、クラウド上に構築された音声認識サーバーが多数のユーザーに認識サービスを提供する際に、ユーザーからのわずかなフィードバックを大量に集めることで、書き起こしを用いることなくシステム性能を向上させる応用を想定したものである。学習と共に期待報酬が増加することは理論的には保障されているものの、実際に有限のリソースのもとに学習を進めることは容易ではない。例えば、教師あり学習を行うシステムにおいて一般的なアテンション機構の利用は、学習の初期において強化学習を困難にすることが判明した。これは、アライメントの学習がうまくいかないためである。そこで、従来のアテンション機構を代替するものとしてスポーク状の構造を提案し、有効性を示した。人間にとって視覚と聴覚はそれぞれが重要であることに加えて、それらの相関の利用は学習を行う上で役立っていると考えられる。ビデオカメラに代表されるように画像と音声を同時に収録することは一般的に行われており、人手によるラベルを用いない学習において音声と画像の相関を有効利用できれば有用であると考えられる。このような目的の元、音声を手掛かりに画像中の音源を教師なしで特定する手法を提案し、有効性を示した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 深層学習の進展に伴い、長らく標準的であった音声認識システムの構成方法に代わり、システム全体をニューラルネットで構成する方法がその柔軟性から急速に普及し始めている。現在は、音声認識分野において歴史的に大きな技術の転換点にある。このため本研究においても研究方法について見直しを行ったことや、新たに構築したニューラルネットを用いた認識システムについて構成の最適化に時間を費やしたため、当初の想定よりもやや進捗に遅れが出た。
Strategy for Future Research Activity	音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。
Causes of Carryover	音声認識システムをニューラルネットのみを用いて構成するアプローチのためのベースラインの構成や、新たな学習アルゴリズムの挙動について不明な点の調査を行うのに時間を要したことなどによる。これに伴い、一部大規模な計算を伴う実験の実施や研究発表の分の予算に次年度使用が生じた。繰り越した予算は、計算機実験を行うための計算機使用料や研究成果の発表などに用いる予定である。

Research Products
(19 results)

All 2019 2018 Other

All Int'l Joint Research (1 results) Journal Article (7 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 6 results, Open Access: 3 results) Presentation (11 results)

[Int'l Joint Research] JHU(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  JHU
[Journal Article] Effective and Stable Neuron Model Optimization Based on Aggregated CMA-ES2019
- Author(s)
  Xu Han, Takahiro Shinozaki, Ryota Kobayashi
- Journal Title
  
  Proc. IEEE ICASSP
  
  Volume: - Pages: 1264-1268
- Peer Reviewed
[Journal Article] Investigation of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Track32019
- Author(s)
  Bairong Zhuang, Wenbo Wang, Takahiro Shinozaki
- Journal Title
  
  Proc. DSTC7
  
  Volume: - Pages: -
- Peer Reviewed / Open Access
[Journal Article] 自動音声認識技術と英語教育--仕組みと研究動向，今できること・できないこと--2019
- Author(s)
  篠崎　隆宏
- Journal Title
  
  英語教育
  
  Volume: 67 Pages: 40-41
[Journal Article] Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition2018
- Author(s)
  Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 27 Pages: 77-88
- DOI
  10.1109/TASLP.2018.2871755
- Peer Reviewed / Int'l Joint Research
[Journal Article] Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods2018
- Author(s)
  Yilong Peng, Hayato Shibata, Takahiro Shinozaki
- Journal Title
  
  Proc. APSIPA
  
  Volume: - Pages: 1934-1939
- Peer Reviewed / Open Access
[Journal Article] F-Measure Based End-To-End Optimization of Neural Network Keyword Detectors2018
- Author(s)
  Tomohiro Tanaka, Takahiro Shinozaki
- Journal Title
  
  Proc. APSIPA
  
  Volume: - Pages: 1456-1461
- Peer Reviewed / Open Access
[Journal Article] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018
- Author(s)
  Taku Kato, Takahiro Shinozaki
- Journal Title
  
  Proc. IEEE ICASSP
  
  Volume: - Pages: 5759-5763
- Peer Reviewed
[Presentation] 連続単語検出のための 2D-RNN を用いた End-to-EndDPマッチング2019
- Author(s)
  田中智宏, 篠崎隆宏
- Organizer
  日本音響学会　2019年　春季研究発表会
[Presentation] 連続対応検出ネットワークによる音声動画からの教師なし物体セグメンテーションおよび関連学習の検討2019
- Author(s)
  田中智宏, 篠崎隆宏
- Organizer
  日本音響学会　2019年　春季研究発表会
[Presentation] 大規模 End-to-End 音声認識システムの教師なし強化学習の実現に向けた検討2019
- Author(s)
  PengYilong, 篠崎隆宏
- Organizer
  日本音響学会　2019年　春季研究発表会
[Presentation] Analysis of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Audio Visual Scene-Aware Dialog Track2019
- Author(s)
  王文博，庄佰融，篠崎隆宏
- Organizer
  日本音響学会　2019年　春季研究発表会
[Presentation] I-vector Domain Adaptation Using Cycle-Consistent Adversarial Networks for Speaker Recognition2019
- Author(s)
  Yi Liu, Takahiro Shinozaki
- Organizer
  情報処理学会 SLP-126
[Presentation] マルチゲートGRUユニットを用いた2D-RNNによるEnd-to-End始終端フリー単語検出2018
- Author(s)
  田中智宏, 篠崎隆宏
- Organizer
  情報処理学会 SLP-125
[Presentation] Improving the audio visual scene-aware dialog system in DSTC7 by using attentional multimodal fusion and MMI objective2018
- Author(s)
  Wenbo Wang，Bairong Zhuang，Takahiro Shinozaki
- Organizer
  情報処理学会 SLP-125
[Presentation] 音声認識システムの教師なし強化学習における報酬と報酬ノイズの影響の検討2018
- Author(s)
  PengYilong, 柴田駿人, 篠崎隆宏
- Organizer
  日本音響学会　2018年　秋季研究発表会
[Presentation] 単語検出性能を目的関数とした単語検出器学習法の提案2018
- Author(s)
  田中智宏, 篠崎隆宏
- Organizer
  日本音響学会　2018年　秋季研究発表会
[Presentation] 強化学習による報酬のみを用いたend-to-end 認識システム学習2018
- Author(s)
  柴田駿人, PengYilong, 篠崎隆宏
- Organizer
  日本音響学会　2018年　秋季研究発表会
[Presentation] End-to-end音声認識システムの強化学習の検討2018
- Author(s)
  PengYilong, 柴田駿人, 篠崎隆宏
- Organizer
  情報処理学会 SLP-123

2018 Fiscal Year Research-status Report

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

Principal Investigator

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] JHU(米国)

Country Name

Counterpart Institution

[Journal Article] Effective and Stable Neuron Model Optimization Based on Aggregated CMA-ES2019

Author(s)

Journal Title

[Journal Article] Investigation of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Track32019

Author(s)

Journal Title

[Journal Article] 自動音声認識技術と英語教育--仕組みと研究動向，今できること・できないこと--2019

Author(s)

Journal Title

[Journal Article] Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition2018

Author(s)

Journal Title

DOI

[Journal Article] Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods2018

Author(s)

Journal Title

[Journal Article] F-Measure Based End-To-End Optimization of Neural Network Keyword Detectors2018

Author(s)

Journal Title

[Journal Article] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018

Author(s)

Journal Title

[Presentation] 連続単語検出のための 2D-RNN を用いた End-to-EndDPマッチング2019

Author(s)

Organizer

[Presentation] 連続対応検出ネットワークによる音声動画からの教師なし物体セグメンテーションおよび関連学習の検討2019

Author(s)

Organizer

[Presentation] 大規模 End-to-End 音声認識システムの教師なし強化学習の実現に向けた検討2019

Author(s)

Organizer

[Presentation] Analysis of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Audio Visual Scene-Aware Dialog Track2019

Author(s)

Organizer

[Presentation] I-vector Domain Adaptation Using Cycle-Consistent Adversarial Networks for Speaker Recognition2019

Author(s)

Organizer

[Presentation] マルチゲートGRUユニットを用いた2D-RNNによるEnd-to-End始終端フリー単語検出2018

Author(s)

Organizer

[Presentation] Improving the audio visual scene-aware dialog system in DSTC7 by using attentional multimodal fusion and MMI objective2018

Author(s)

Organizer

[Presentation] 音声認識システムの教師なし強化学習における報酬と報酬ノイズの影響の検討2018

Author(s)

Organizer

[Presentation] 単語検出性能を目的関数とした単語検出器学習法の提案2018

Author(s)

Organizer

[Presentation] 強化学習による報酬のみを用いたend-to-end 認識システム学習2018

Author(s)

Organizer

[Presentation] End-to-end音声認識システムの強化学習の検討2018

Author(s)

Organizer

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)