2019 Fiscal Year Research-status Report
Noise-robust speech recognition and spoken dialog system for service robots
Project/Area Number |
19K24343
|
Research Institution | Kobe University |
Principal Investigator |
高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)
|
Project Period (FY) |
2019-08-30 – 2021-03-31
|
Keywords | 音声認識 / 音声対話 / ニューラルネットワーク / 機械学習 |
Outline of Annual Research Achievements |
本研究では、音声対話システムにおける前処理(雑音除去など)、音声認識、対話の全モジュールを一つのモデルで表現するEnd-to-Endモデルの構築を目指している。本年度は、ベースラインとして音声認識部と対話(応答文生成)部のモジュールを構築し、本研究の主要課題の一つである、限られたデータ量下での学習安定化について検討を行った。音声認識部については、ベースラインとして音響モデル、辞書、言語モデルを個別にモデル化する従来型の音声認識モデルと、一つの深層ニューラルネットワークでモデル化するEnd-to-End型モデルの二通りを構築した。二通りのモデルについて、Transfer learningと呼ばれる手法を適用することで、少量データにおける音声認識性能の向上を確認した。さらに、従来のTransfer learningの枠組みを応用して、別ドメインのデータの知識を段階的に特定ドメインの認識に役立てるマルチステップ適応手法を提案し、従来法よりも高い音声認識性能を得た。対話部においては、ベースラインとして深層ニューラルネットワークを用いたSequence to Sequence型の対話制御部を構築した。さらに、学習データ量が限られている状況に置いて対話の汎化性能を向上させる方法として、WordNetと呼ばれるデータベースを基にした外部知識を用いる手法を検討し、従来法よりも高い客観評価指標を得た。今後は、さらなる性能向上を目指してSelf-supervised learningやMeta learningといった手法を検討するとともに、前処理部についても実装と改良検討を行っていく。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の目標は、音声対話システムの各モジュールを個別最適化するというベースラインの構築と、少量データにおける学習安定化の検討であった。これに対して今年度は主要モジュールである音声認識部と対話部のベースラインを構築し、かつそれぞれのモジュールに対して、少量データにおける学習安定化の手法を提案し、効果を確認できた。これらの研究成果については国際会議ICASSPや、電子情報通信学会音声研究会、日本音響学会2019年研究発表会などで発表済みである。
|
Strategy for Future Research Activity |
少量データにおける学習安定化のさらなる検討として、self-supervised learningやmeta learningといったターゲットドメインとは異なるデータを効率的に活用したモデル学習手法について検討していく。また、前処理部についてもベースライン構築を行うとともに、全体最適化についても検討していく。
|