2019 年度実施状況報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究課題

研究課題/領域番号	18K11431
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	自動字幕 / 音声認識誤り修正 / 話者音声分離 / 回り込み音声 / End-to-end型音声認識 / 音声区間検出 / 深層学習
研究実績の概要	昨年度に引き続き、実環境の長期的な収録音声に対する継続的な音声認識精度の改善と音声言語知識の獲得の仕組みを実現するため、書き起こしの自動修正システム、修正入力情報を継続利用する技術、注目話者の音声分離技術に関する開発を進めた。これまで自動音声認識システムが出力する書き起こしテキストの誤りに対して、キーワード情報のみを人手で与える想定で書き起こしを自動修正するシステムを開発してきた。特に修正区間の検出精度を改善すること、他の話者の音声の混入がある場合の音声認識精度の改善を図ることが課題であった。そこで、キーワードの前後の単語とのコンテキスト情報を考慮することで音声検索語検出をより有効に応用する手法を開発し、修正区間検出の改善を図った。更に、実際の会議音声を対象として、複数の話者の音声が混在する音声の音声認識精度への影響分析と、注目話者の音声分離を考慮した自動音声認識技術の開発を進めた。特に、会議の参加者が個別の接話マイクを使っている実環境の収録音声（AMIコーパス）を利用した実験により、他者の回り込みの音声によって音声認識精度に影響がある可能性が示唆された。そこで注目話者への注意機構を組み込んだEnd-to-end型音声認識モデルによる最適化手法の開発とその評価を新たに進めた。その結果、従来のDNN-HMMベースの階層型音声認識モデルでは音声区間の検出精度が悪い場合において認識精度の低下が大きい状況であったのに対して、提案手法においては注目話者への注意機構と音声区間の検出の機構を暗黙的に含んで最適化したEnd-to-endモデルの利用によって、音声区間推定の不完全さに影響されにくく比較的安定した音声認識精度を維持できることを実環境の会議音声を用いて明らかにした。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 2年度目にあらかじめ設定していた各項目の課題について一定の成果を得ることができたため。
今後の研究の推進方策	初年度から計画してきた項目別の課題について、更に改善を図ると共に講演・講義音声の自動字幕化利用を想定した応用システム全体での評価のためのプロトタイプシステムの開発を進める。継続する下記の各研究項目について、当初の計画どおり研究をさらに発展させる。（１)書き起こしの自動修正システムの開発：これまでに開発を進めた方法をベースとして、下記（２）、（３）で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発と評価を進める。（２）修正入力情報を継続利用する技術の開発：実際に人間が修正語としてフィードバックする内容やその種類を再利用する仕組みの開発と比較評価を進める。（３）注目話者の音声分離技術の開発：これまでに開発してきた注目話者の音声分離を明示的に行う方法と、注目話者の音声区間を暗黙的に推定して音声認識を行うEnd-to-end型モデルによる方法との比較や併用の方法についてさらに開発と評価を進める。
次年度使用額が生じた理由	2019年度では計画していた学会発表等が新型コロナ感染症による対策として開催されず出張旅費の支出がなくなったことと、実験用のコンピュータ周辺装置が来年度の導入でも実験が行える見通しがたったため繰越額が発生した。2020年度においては、特に実験用のストレージ拡張が必要でありそれに充当する予定である。

研究成果
(5件)

すべて 2020 2019

すべて学会発表 (5件)

[学会発表] End-to-end 音声認識における会議音声への適応および回り込み音声の影響軽減2020
- 著者名/発表者名
  大内一亜, 甲斐充彦
- 学会等名
  電子情報通信学会音声研究会
[学会発表] CNNベース識別モデルによるF0推定と伴奏重畳歌唱音声および雑音環境下読み上げ音声における評価2020
- 著者名/発表者名
  川村智規，甲斐充彦，中川聖一
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 講演音声認識の修正語のオンライン教示による半自動的な修正手法と語彙適応の併用の効果2019
- 著者名/発表者名
  寺田侑司, 塚本皓斗, 甲斐充彦
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] 講義音声認識のための回り込み音声の影響分析とDNN音声分離モデルによる改善の一検討2019
- 著者名/発表者名
  脇屋義也, 福井明日香, 甲斐充彦
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] CNNベース識別モデルによるF0推定と歌唱および読み上げ音声における評価2019
- 著者名/発表者名
  川村智規，甲斐充彦，中川聖一
- 学会等名
  第21回音声言語シンポジウム（情報処理学会音声言語情報処理研究会）

2019 年度 実施状況報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究代表者

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

現在までの達成度 (区分)

理由

研究成果

[学会発表] End-to-end 音声認識における会議音声への適応および回り込み音声の影響軽減2020

著者名/発表者名

学会等名

[学会発表] CNNベース識別モデルによるF0推定と伴奏重畳歌唱音声および雑音環境下読み上げ音声における評価2020

著者名/発表者名

学会等名

[学会発表] 講演音声認識の修正語のオンライン教示による半自動的な修正手法と語彙適応の併用の効果2019

著者名/発表者名

学会等名

[学会発表] 講義音声認識のための回り込み音声の影響分析とDNN音声分離モデルによる改善の一検討2019

著者名/発表者名

学会等名

[学会発表] CNNベース識別モデルによるF0推定と歌唱および読み上げ音声における評価2019

著者名/発表者名

学会等名

2019 年度実施状況報告書

甲斐充彦静岡大学, 工学部, 准教授 (60283496)