• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

Research Project

Project/Area Number 17K20001
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

Co-Investigator(Kenkyū-buntansha) 持橋 大地  統計数理研究所, 数理・推論研究系, 准教授 (80418508)
Project Period (FY) 2017-06-30 – 2020-03-31
Keywords音声認識 / 半教師あり学習 / 強化学習 / 教師なし学習
Outline of Annual Research Achievements

音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。また、書き起こしテキストを用いずにEncoder-Decoder型の音声認識システム全体を方策関数として、認識結果のスカラー評価値をもとにシステムを強化学習する方法について検討および実験を進めた。これは、クラウド上に構築された音声認識サーバーが多数のユーザーに認識サービスを提供する際に、ユーザーからのわずかなフィードバックを大量に集めることで、書き起こしを用いることなくシステム性能を向上させる応用を想定したものである。学習と共に期待報酬が増加することは理論的には保障されているものの、実際に有限のリソースのもとに学習を進めることは容易ではない。例えば、教師あり学習を行うシステムにおいて一般的なアテンション機構の利用は、学習の初期において強化学習を困難にすることが判明した。これは、アライメントの学習がうまくいかないためである。そこで、従来のアテンション機構を代替するものとしてスポーク状の構造を提案し、有効性を示した。人間にとって視覚と聴覚はそれぞれが重要であることに加えて、それらの相関の利用は学習を行う上で役立っていると考えられる。ビデオカメラに代表されるように画像と音声を同時に収録することは一般的に行われており、人手によるラベルを用いない学習において音声と画像の相関を有効利用できれば有用であると考えられる。このような目的の元、音声を手掛かりに画像中の音源を教師なしで特定する手法を提案し、有効性を示した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

深層学習の進展に伴い、長らく標準的であった音声認識システムの構成方法に代わり、システム全体をニューラルネットで構成する方法がその柔軟性から急速に普及し始めている。現在は、音声認識分野において歴史的に大きな技術の転換点にある。このため本研究においても研究方法について見直しを行ったことや、新たに構築したニューラルネットを用いた認識システムについて構成の最適化に時間を費やしたため、当初の想定よりもやや進捗に遅れが出た。

Strategy for Future Research Activity

音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。

Causes of Carryover

音声認識システムをニューラルネットのみを用いて構成するアプローチのためのベースラインの構成や、新たな学習アルゴリズムの挙動について不明な点の調査を行うのに時間を要したことなどによる。これに伴い、一部大規模な計算を伴う実験の実施や研究発表の分の予算に次年度使用が生じた。繰り越した予算は、計算機実験を行うための計算機使用料や研究成果の発表などに用いる予定である。

  • Research Products

    (19 results)

All 2019 2018 Other

All Int'l Joint Research (1 results) Journal Article (7 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 6 results,  Open Access: 3 results) Presentation (11 results)

  • [Int'l Joint Research] JHU(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      JHU
  • [Journal Article] Effective and Stable Neuron Model Optimization Based on Aggregated CMA-ES2019

    • Author(s)
      Xu Han, Takahiro Shinozaki, Ryota Kobayashi
    • Journal Title

      Proc. IEEE ICASSP

      Volume: - Pages: 1264-1268

    • Peer Reviewed
  • [Journal Article] Investigation of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Track32019

    • Author(s)
      Bairong Zhuang, Wenbo Wang, Takahiro Shinozaki
    • Journal Title

      Proc. DSTC7

      Volume: - Pages: -

    • Peer Reviewed / Open Access
  • [Journal Article] 自動音声認識技術と英語教育--仕組みと研究動向,今できること・できないこと--2019

    • Author(s)
      篠崎 隆宏
    • Journal Title

      英語教育

      Volume: 67 Pages: 40-41

  • [Journal Article] Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition2018

    • Author(s)
      Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 27 Pages: 77-88

    • DOI

      10.1109/TASLP.2018.2871755

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods2018

    • Author(s)
      Yilong Peng, Hayato Shibata, Takahiro Shinozaki
    • Journal Title

      Proc. APSIPA

      Volume: - Pages: 1934-1939

    • Peer Reviewed / Open Access
  • [Journal Article] F-Measure Based End-To-End Optimization of Neural Network Keyword Detectors2018

    • Author(s)
      Tomohiro Tanaka, Takahiro Shinozaki
    • Journal Title

      Proc. APSIPA

      Volume: - Pages: 1456-1461

    • Peer Reviewed / Open Access
  • [Journal Article] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018

    • Author(s)
      Taku Kato, Takahiro Shinozaki
    • Journal Title

      Proc. IEEE ICASSP

      Volume: - Pages: 5759-5763

    • Peer Reviewed
  • [Presentation] 連続単語検出のための 2D-RNN を用いた End-to-EndDPマッチング2019

    • Author(s)
      田中智宏, 篠崎隆宏
    • Organizer
      日本音響学会 2019年 春季研究発表会
  • [Presentation] 連続対応検出ネットワークによる音声動画からの教師なし物体セグメンテーションおよび関連学習の検討2019

    • Author(s)
      田中智宏, 篠崎隆宏
    • Organizer
      日本音響学会 2019年 春季研究発表会
  • [Presentation] 大規模 End-to-End 音声認識システムの教師なし強化学習の実現に向けた検討2019

    • Author(s)
      PengYilong, 篠崎隆宏
    • Organizer
      日本音響学会 2019年 春季研究発表会
  • [Presentation] Analysis of Attention-Based Multimodal Fusion and Maximum Mutual Information Objective for DSTC7 Audio Visual Scene-Aware Dialog Track2019

    • Author(s)
      王 文博,庄 佰融,篠崎 隆宏
    • Organizer
      日本音響学会 2019年 春季研究発表会
  • [Presentation] I-vector Domain Adaptation Using Cycle-Consistent Adversarial Networks for Speaker Recognition2019

    • Author(s)
      Yi Liu, Takahiro Shinozaki
    • Organizer
      情報処理学会 SLP-126
  • [Presentation] マルチゲートGRUユニットを用いた2D-RNNによるEnd-to-End始終端フリー単語検出2018

    • Author(s)
      田中智宏, 篠崎隆宏
    • Organizer
      情報処理学会 SLP-125
  • [Presentation] Improving the audio visual scene-aware dialog system in DSTC7 by using attentional multimodal fusion and MMI objective2018

    • Author(s)
      Wenbo Wang,Bairong Zhuang,Takahiro Shinozaki
    • Organizer
      情報処理学会 SLP-125
  • [Presentation] 音声認識システムの教師なし強化学習における報酬と報酬ノイズの影響の検討2018

    • Author(s)
      PengYilong, 柴田駿人, 篠崎隆宏
    • Organizer
      日本音響学会 2018年 秋季研究発表会
  • [Presentation] 単語検出性能を目的関数とした単語検出器学習法の提案2018

    • Author(s)
      田中智宏, 篠崎隆宏
    • Organizer
      日本音響学会 2018年 秋季研究発表会
  • [Presentation] 強化学習による報酬のみを用いたend-to-end 認識システム学習2018

    • Author(s)
      柴田駿人, PengYilong, 篠崎隆宏
    • Organizer
      日本音響学会 2018年 秋季研究発表会
  • [Presentation] End-to-end音声認識システムの強化学習の検討2018

    • Author(s)
      PengYilong, 柴田駿人, 篠崎隆宏
    • Organizer
      情報処理学会 SLP-123

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi