2021 Fiscal Year Research-status Report

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

Research Project

Project/Area Number	18K11431
Research Institution	Shizuoka University
Principal Investigator	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
Project Period (FY)	2018-04-01 – 2023-03-31
Keywords	長時間収録音声 / 自動字幕 / 自動修正 / 音声検索語検出 / End-to-end型音声認識モデル / 読み推定 / 環境雑音
Outline of Annual Research Achievements	本研究課題では、講義や会議などの長時間の収録音声の字幕化や検索への応用を想定し、持続的に音声認識精度を改善する仕組みの実現を目指し研究を進めている。具体的には、自動音声認識技術で生成するテキストに対して人間がその誤り箇所の教示に最小限関わるだけで実現することを目的としている。前年度に引き続き、研究計画の各サブテーマに関連して以下の成果を得た。(1)修正語の入力を利用した書き起こしの自動修正システムの改善：修正語が自動書き起こし対象音声中に出現する区間を推定するために用いる音声検索語検出（STD）技術の改善を進めた。具体的には、昨年度に提案した読み推定を意図したEnd-to-end型モデルにおいて、当初の研究計画で重要な課題としていた名詞句に関わる検出精度の改善を図った。前年度の提案モデルを基本として名詞区切りの教示による学習を行うことによって、よりコンパクトなモデルで検出精度を顕著に改善できることを示した（国際会議発表２件）。また、STD技術で推定される出現区間の誤差がこれまで実現していた自動修正技術の精度に影響を与えていたことから、出現区間推定のためにEnd-to-end型モデルを用いた改善手法を提案した。その結果、出現区間の精度も顕著に改善できることを示した。(2)注目話者の音声分離技術：前年度までは注目する話者特徴を利用した手法で音声分離モデルの効果を明らかにしたが、R3年度では音声区間検出の点で改善をさらに進めた。具体的には、会議や講義などの場面で混入する環境特有の雑音に対応するため、大規模な音響イベントラベル付きデータで学習した音響イベント分類モデルの中間出力を補助特徴としたモデルを提案し、環境の違いに対して頑健性の改善効果を確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason これまでの研究計画の進捗により、基盤となるサブテーマにおいては既に一定の成果を得ている。具体的には、書き起こしの自動修正システムに関わる部分で重要な要素となっているSTD技術において未知語区間に対して精度を大きく改善でき、注目話者の音声分離技術に関わる部分で話者や収録環境に対して頑健な手法を実現した。これらの成果を統合する自動修正システムの部分については、これまでの最新の成果を反映することで研究計画全体としての評価を進めることができ、今後の研究計画期間で実現の目途が立っている。
Strategy for Future Research Activity	計画していたサブテーマについて、更に改善を図ると共に講演・講義音声の自動字幕化利用を想定した応用システム全体での評価のためのプロトタイプシステムの開発を進める。特に下記の各研究項目について当初の計画どおり研究をさらに進める。（１)書き起こしの自動修正システムの開発：これまでに改善を進めた方法および下記で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発と評価を進める。（２）修正入力情報を継続利用する技術の開発：実際に人間が修正語としてフィードバックする内容やその種類を再利用する仕組みの開発と比較評価を進める。
Causes of Carryover	令和３年度には、コロナ禍の影響によってほとんどの国内・国外の学会発表を目的とした出張予定がすべてキャンセルになり出張旅費が発生しなかったことに加え、実験環境の制約により評価実験の一部について予定通り進められなかった。そのため、令和３年度までに予定していた実験機材の一部購入および成果発表の費用について令和４年度にて使用を予定する。

Research Products
(2 results)

All 2021

All Presentation (2 results) (of which Int'l Joint Research: 2 results)

[Presentation] Robust Query-by-example Spoken Term Detection for Unknown Words Using Speech Retrieval-oriented E2E ASR Modeling2021
- Author(s)
  Takumi Kurokawa, Atsuhiko Kai
- Organizer
  IEEE 10th Global Conference on Consumer Electronics (GCCE2021)
- Int'l Joint Research
[Presentation] Retrieval-oriented E2E ASR Modeling for Improved Query-by-example Spoken Term Detection2021
- Author(s)
  Takumi Kurokawa, Atsuhiko Kai
- Organizer
  Asia-Pacific Signal Information Processing Association Annual Summit and Conference (APSIPA ASC 2021)
- Int'l Joint Research

2021 Fiscal Year Research-status Report

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

Principal Investigator

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

Current Status of Research Progress

Reason

Research Products

[Presentation] Robust Query-by-example Spoken Term Detection for Unknown Words Using Speech Retrieval-oriented E2E ASR Modeling2021

Author(s)

Organizer

[Presentation] Retrieval-oriented E2E ASR Modeling for Improved Query-by-example Spoken Term Detection2021

Author(s)

Organizer

甲斐充彦静岡大学, 工学部, 准教授 (60283496)