2020 Fiscal Year Research-status Report

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

Research Project

Project/Area Number	18K11431
Research Institution	Shizuoka University
Principal Investigator	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	長時間収録音声 / 音声認識誤り修正 / 低コスト字幕修正 / 回り込み音声 / 音声検索語検出 / End-to-end音声認識モデル / 注目話者音声認識 / 深層学習
Outline of Annual Research Achievements	本研究課題では、講義や会議などの長時間の収録音声の字幕化や検索への応用を想定し、持続的に音声認識精度を改善する仕組みの実現を目指し研究を進めている。具体的には、自動音声認識技術で生成するテキストに対して人間がその誤り箇所の正しい語の教示、すわなち音声言語知識の教示に最小限関わることで実現することを目的としている。前年度に引き続き、以下の各要素技術についてそれぞれ成果を得た。(1)修正語の入力を利用した書き起こしの自動修正システムの改善：修正語が収録音声中に出現する区間を推定するために用いる音声検索語検出(STD)技術の改善を進めた。近年の自動音声認識技術で注目されるEnd-to-end型モデルに注目し、収録音声中の検索語の読み推定を強化することを意図したEnd-to-end型音声認識モデルを構築して利用することで、学習データに含まれていない単語（未知語）で検索精度が低下する問題を大きく改善した。(2)修正入力情報を継続利用する技術：講演音声をリアルタイムで自動字幕化するプロトタイプシステムをもとに、人が修正語を入力する想定での修正効率の分析をもとに、繰り返し発話される修正語の自動修正の仕組みを提案し、評価を進めた。その結果、単語誤り率が10％を少し超える程度でも、従来は修正が間に合わないケースが多かったのに対して、改善手法によって修正コストを大きく削減できることを示した。(3)注目話者の音声分離技術：前年度までに、回り込み音声を模擬した２話者の人工混合音声を用いることで、音声特徴量レベルの音声分離モデルをDNNで学習・獲得する方法で成果を得ていた。更なる改善のため、注目する話者特徴の埋め込み表現を併用するモデルの開発を進めた。その結果、回り込み音声を想定した人工混合音声と実環境音声の両者において、提案モデルは音声認識精度の改善に有効であることを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 令和２年度に計画していた３つの研究項目のうち、修正入力情報を継続利用する技術と注目話者の音声分離技術については実験評価まで一定の成果を得ることができた。残りの一項目としてのシステム開発の部分については、コロナ禍の影響で研究協力者となっていた学生が研究活動を制限され進行が遅れたが、他の２項目の成果を反映する予定の内容のため次年度の実施計画として十分に目途が立っている。
Strategy for Future Research Activity	前年度に計画している項目別の課題について、更に改善を図ると共に講演・講義音声の自動字幕化利用を想定した応用システム全体での評価のためのプロトタイプシステムの開発を進める。下記の各研究項目について当初の計画どおり研究をさらに発展させる。（１)書き起こしの自動修正システムの開発：これまでに改善を進めた方法をベースとして、下記（２）、（３）で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発と評価を進める。（２）修正入力情報を継続利用する技術の開発：実際に人間が修正語としてフィードバックする内容やその種類を再利用する仕組みの開発と比較評価を進める。（３）注目話者の音声分離技術の開発：これまでに開発してきた注目話者の音声分離の方法について、収録環境に適応する方法と併せた改善モデルの構築と評価を進める。
Causes of Carryover	令和２年度には、コロナ禍の影響によって国内・国外の学会発表を目的とした出張予定がすべてキャンセルになり出張旅費が発生しなかったことに加え、研究協力者となっていた学生の研究活動が長期的にできなくなったことで研究計画が当初の予定よりも遅れ、研究期間を１年間延長して実施することになったため。そのため、令和２年度に予定していた実験機材の一部購入および成果発表の費用について令和３年度にて使用を予定する。

Research Products
(3 results)

All 2021 2020

All Presentation (3 results) (of which Int'l Joint Research: 2 results)

[Presentation] Efficient Channel Adaptation of ASR by DNN-based Data Augmentation using Re-recorded Paired data with Automatic Alignment Correction2021
- Author(s)
  Nahar Raufun, Kai Atsuhiko
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] Effect of Data Augmentation on DNN-Based VAD for Automatic Speech Recognition in Noisy Environment2020
- Author(s)
  Nahar Raufun, Kai Atsuhiko
- Organizer
  IEEE 9th Global Conference on Consumer Electronics (GCCE 2020)
- Int'l Joint Research
[Presentation] Effects of End-to-end ASR and Score Fusion Model Learning for Improved Query-by-example Spoken Term Detection2020
- Author(s)
  Takumi Kurokawa, Atsuhiko Kai, Hiroki Kondo
- Organizer
  Asia-Pacific Signal Information Processing Association Annual Summit and Conference (APSIPA ASC 2020)
- Int'l Joint Research

2020 Fiscal Year Research-status Report

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

Principal Investigator

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

Current Status of Research Progress

Reason

Research Products

[Presentation] Efficient Channel Adaptation of ASR by DNN-based Data Augmentation using Re-recorded Paired data with Automatic Alignment Correction2021

Author(s)

Organizer

[Presentation] Effect of Data Augmentation on DNN-Based VAD for Automatic Speech Recognition in Noisy Environment2020

Author(s)

Organizer

[Presentation] Effects of End-to-end ASR and Score Fusion Model Learning for Improved Query-by-example Spoken Term Detection2020

Author(s)

Organizer

甲斐充彦静岡大学, 工学部, 准教授 (60283496)