• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Noise-robust speech recognition and spoken dialog system for service robots

Research Project

Project/Area Number 19K24343
Research InstitutionKobe University

Principal Investigator

高島 遼一  神戸大学, 都市安全研究センター, 准教授 (50846102)

Project Period (FY) 2019-08-30 – 2021-03-31
Keywords音声認識 / 音声対話 / ニューラルネットワーク / 機械学習
Outline of Annual Research Achievements

本研究では、音声対話システムにおける前処理(雑音除去など)、音声認識、対話の全モジュールを一つのモデルで表現するEnd-to-Endモデルの構築を目指している。本年度は、ベースラインとして音声認識部と対話(応答文生成)部のモジュールを構築し、本研究の主要課題の一つである、限られたデータ量下での学習安定化について検討を行った。音声認識部については、ベースラインとして音響モデル、辞書、言語モデルを個別にモデル化する従来型の音声認識モデルと、一つの深層ニューラルネットワークでモデル化するEnd-to-End型モデルの二通りを構築した。二通りのモデルについて、Transfer learningと呼ばれる手法を適用することで、少量データにおける音声認識性能の向上を確認した。さらに、従来のTransfer learningの枠組みを応用して、別ドメインのデータの知識を段階的に特定ドメインの認識に役立てるマルチステップ適応手法を提案し、従来法よりも高い音声認識性能を得た。対話部においては、ベースラインとして深層ニューラルネットワークを用いたSequence to Sequence型の対話制御部を構築した。さらに、学習データ量が限られている状況に置いて対話の汎化性能を向上させる方法として、WordNetと呼ばれるデータベースを基にした外部知識を用いる手法を検討し、従来法よりも高い客観評価指標を得た。今後は、さらなる性能向上を目指してSelf-supervised learningやMeta learningといった手法を検討するとともに、前処理部についても実装と改良検討を行っていく。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度の目標は、音声対話システムの各モジュールを個別最適化するというベースラインの構築と、少量データにおける学習安定化の検討であった。これに対して今年度は主要モジュールである音声認識部と対話部のベースラインを構築し、かつそれぞれのモジュールに対して、少量データにおける学習安定化の手法を提案し、効果を確認できた。これらの研究成果については国際会議ICASSPや、電子情報通信学会音声研究会、日本音響学会2019年研究発表会などで発表済みである。

Strategy for Future Research Activity

少量データにおける学習安定化のさらなる検討として、self-supervised learningやmeta learningといったターゲットドメインとは異なるデータを効率的に活用したモデル学習手法について検討していく。また、前処理部についてもベースライン構築を行うとともに、全体最適化についても検討していく。

  • Research Products

    (15 results)

All 2020 2019 Other

All Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (13 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

  • [Journal Article] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019

    • Author(s)
      Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Journal Title

      IEEE Access

      Volume: 7 Pages: 164320-164326

    • DOI

      10.1109/ACCESS.2019.2951856

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] Two-step acoustic model adaptation for dysarthric speech recognition2020

    • Author(s)
      Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • Int'l Joint Research
  • [Presentation] Optimizing the Computational Efficiency of 3D Segmentation Models for Connectomics2020

    • Author(s)
      Weihao Zhuang, Hascoet Tristan, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      The 26th International Workshop on Frontiers of Computer Vision (IW-FCV 2020)
    • Int'l Joint Research
  • [Presentation] Hybrid CTC/attentionモデルを用いた構音障害者音声認識の検討2020

    • Author(s)
      澤佑哉, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] 少量データを用いた構音障害者音声合成の健常者モデルによる明瞭性改善2020

    • Author(s)
      南坂竜翔, 高島遼一, 滝口哲也
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] Differentiable Programmingを用いた強化学習の最適化2020

    • Author(s)
      黄伊莎, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      情報処理学会第82回全国大会講演論文集
  • [Presentation] ニューロンセグメンテーションにおけるマルチドメイン学習による汎化性能の改善2020

    • Author(s)
      長谷川貴大, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      情報処理学会第82回全国大会講演論文集
  • [Presentation] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

    • Author(s)
      高島悠樹, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      電子情報通信学会技術研究報告
  • [Presentation] 外部知識を用いた雑談対話システムの汎化性能向上の検討2019

    • Author(s)
      麻生大聖, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] Speech-to-Speech Translation using Dual Learning and Prosody Conversion2019

    • Author(s)
      Zhaojie Luo, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] 構音障害者の少量データを用いた深層学習による音声合成の検討2019

    • Author(s)
      南坂竜翔, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] 構音障害者を対象とした日本語大語彙連続音声認識の検討2019

    • Author(s)
      高島遼一, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] WordNetを用いた雑談対話システムの汎化性能の向上2019

    • Author(s)
      麻生大聖, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      電子情報通信学会技術研究報告
  • [Presentation] Reduce GPU Memory Usage of Training Neural Network by CPU Offloading2019

    • Author(s)
      Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      第22回画像の認識・理解シンポジウム
  • [Remarks] 研究者webページ

    • URL

      http://www.me.cs.scitec.kobe-u.ac.jp/~rtakashima/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi