研究課題/領域番号 |
18K11431
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 自動字幕 / 音声認識誤り修正 / 話者音声分離 / 回り込み音声 / End-to-end型音声認識 / 音声区間検出 / 深層学習 |
研究実績の概要 |
昨年度に引き続き、実環境の長期的な収録音声に対する継続的な音声認識精度の改善と音声言語知識の獲得の仕組みを実現するため、書き起こしの自動修正システム、修正入力情報を継続利用する技術、注目話者の音声分離技術に関する開発を進めた。これまで自動音声認識システムが出力する書き起こしテキストの誤りに対して、キーワード情報のみを人手で与える想定で書き起こしを自動修正するシステムを開発してきた。特に修正区間の検出精度を改善すること、他の話者の音声の混入がある場合の音声認識精度の改善を図ることが課題であった。そこで、キーワードの前後の単語とのコンテキスト情報を考慮することで音声検索語検出をより有効に応用する手法を開発し、修正区間検出の改善を図った。更に、実際の会議音声を対象として、複数の話者の音声が混在する音声の音声認識精度への影響分析と、注目話者の音声分離を考慮した自動音声認識技術の開発を進めた。特に、会議の参加者が個別の接話マイクを使っている実環境の収録音声(AMIコーパス)を利用した実験により、他者の回り込みの音声によって音声認識精度に影響がある可能性が示唆された。そこで注目話者への注意機構を組み込んだEnd-to-end型音声認識モデルによる最適化手法の開発とその評価を新たに進めた。その結果、従来のDNN-HMMベースの階層型音声認識モデルでは音声区間の検出精度が悪い場合において認識精度の低下が大きい状況であったのに対して、提案手法においては注目話者への注意機構と音声区間の検出の機構を暗黙的に含んで最適化したEnd-to-endモデルの利用によって、音声区間推定の不完全さに影響されにくく比較的安定した音声認識精度を維持できることを実環境の会議音声を用いて明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2年度目にあらかじめ設定していた各項目の課題について一定の成果を得ることができたため。
|
今後の研究の推進方策 |
初年度から計画してきた項目別の課題について、更に改善を図ると共に講演・講義音声の自動字幕化利用を想定した応用システム全体での評価のためのプロトタイプシステムの開発を進める。継続する下記の各研究項目について、当初の計画どおり研究をさらに発展させる。 (1)書き起こしの自動修正システムの開発:これまでに開発を進めた方法をベースとして、下記(2)、(3)で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発と評価を進める。 (2)修正入力情報を継続利用する技術の開発:実際に人間が修正語としてフィードバックする内容やその種類を再利用する仕組みの開発と比較評価を進める。 (3)注目話者の音声分離技術の開発:これまでに開発してきた注目話者の音声分離を明示的に行う方法と、注目話者の音声区間を暗黙的に推定して音声認識を行うEnd-to-end型モデルによる方法との比較や併用の方法についてさらに開発と評価を進める。
|
次年度使用額が生じた理由 |
2019年度では計画していた学会発表等が新型コロナ感染症による対策として開催されず出張旅費の支出がなくなったことと、実験用のコンピュータ周辺装置が来年度の導入でも実験が行える見通しがたったため繰越額が発生した。2020年度においては、特に実験用のストレージ拡張が必要でありそれに充当する予定である。
|