2020 Fiscal Year Annual Research Report
Noise-robust speech recognition and spoken dialog system for service robots
Project/Area Number |
19K24343
|
Research Institution | Kobe University |
Principal Investigator |
高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)
|
Project Period (FY) |
2019-08-30 – 2021-03-31
|
Keywords | 音声認識 / 音声対話 / ニューラルネットワーク / 機械学習 |
Outline of Annual Research Achievements |
本研究では、音声対話システムにおける前処理(雑音除去など)、音声認識、対話の全モジュールを一つのモデルで表現するEnd-to-Endモデルの構築を目指している。前年度に引き続き音声認識部の開発に注力し、特に、限られたデータ量下での学習安定化については前年度からさらなる成果をあげた。前年度ではTransfer learningの枠組みにより、ターゲットとは異なるドメインのデータを利用することで、ターゲットドメインのデータ量不足を補う方式を検討したが、今年度はこれに加えて、ラベルの無い音声データを活用するSelf-supervised learningの方式について検討を行った。学習データを収集する上で特に問題となるのがアノテーション(正解ラベルの作成)コストである。Self-supervised learningを用いることで、全ての学習データにアノテーションを行う必要がなくなるため、学習データの収集が容易になるという利点がある。さらにTransfer learningと組み合わせることで、非ターゲットドメインのラベル無しデータも活用することが可能となる。提案方式では、Autoregressive predictive coding (APC)と呼ばれるSelf-supervised learningの手法をベースとし、まずAPCモデルを大量のラベル無し非ターゲットドメインデータを用いて事前学習し、Transfer learningによりターゲットドメインのラベル無しデータへ適応させる。これにより、音声認識にとって有用な特徴表現を獲得するモデルが事前学習される。その後、学習したAPCモデルを初期モデルとして少量のラベル有りターゲットドメインデータを学習することで、安定してEnd-to-Endモデルを学習することができ、音声認識誤り率の低減が確認された。今後はさらに性能が良いとされているwav2vec2.0といったself-supervised learningの手法を検討するとともに、対話モジュールのさらなる改良と、音声認識部と対話部のEnd-to-End化の検討を進めていく。
|