2018 年度実施状況報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究課題

研究課題/領域番号	18K11431
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	自動音声認識 / 音声認識誤り修正 / 音声検索語検出 / 言語知識拡充 / 話者音声分離 / 深層学習 / ディープニューラルネットワーク(DNN)
研究実績の概要	本年度は、初年度として以下の課題を設定して研究を行った。（１)書き起こしの自動修正システムの開発：自動音声認識システムが出力する書き起こしテキストの誤りに対して、キーワード情報のみを人手で与える想定で書き起こしを自動修正するシステムを開発した。その仕組みは、既に開発済みの音声検索語検出技術を用い、入力されたキーワードの音声区間推定を行い、自動音声認識システムの中間出力情報であるラティスを自動的に操作することで実現した。（２）修正入力情報を継続利用する技術の開発：上記の自動修正システムをもとに、修正を与えた語が繰り返し出現する場合の自動修正の精度を改善する仕組みを検討し、実装評価を進めた。具体的には、修正入力語の情報をもとに深層学習モデルによって言語モデル学習用のテキストデータを自動的に生成し、言語モデルに新しい語の知識を追加した適応言語モデルを学習する方法を提案した。そして、未修正部分の自動音声認識の精度が改善されるか評価実験によって検証を行った。実際の11名の学会講演（のべ2時間弱）の収録音声を用い、それぞれの話者の一部または全部のデータについて、前記（１）の方法による自動修正の効果と、修正語による言語モデル適応後の再認識の効果を評価し、共に認識精度の改善を得た。（３）注目話者の音声分離技術の開発：今年度は、講義および会議音声を対象として、注目話者の音声と他人の音声を人工的に重畳した音声から、特定話者の条件で音声分離モデルをディープニューラルネットワーク（DNN）で学習する方法で実験を進めた。その結果、注目話者の10分強程度の話し言葉音声を利用して学習した音声分離モデルを利用することで、他の話者と重なりがある講演音声に対して自動音声認識の誤りを削減した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由初年度に予定していた研究課題の各項目ともにほぼ所定の進展および成果が得られているため。
今後の研究の推進方策	初年度の各研究項目について、当初の計画どおり研究をさらに発展させる。（１)書き起こしの自動修正システムの開発：これまでに開発を進めた方法をベースとして、下記（２）で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発を進める。（２）修正入力情報を継続利用する技術の開発：これまでに開発してきた方法では、修正入力語は認識誤りの中の一部の名詞句部分に限定していた。より現時的に実際に人間が修正語としてフィードバックする内容やその種類について想定する範囲を広げて検討および評価を進める。（３）注目話者の音声分離技術の開発：これまでは特定話者の条件で音声分離モデルを学習する方法で実験を進めたが、注目話者の学習用の音声データの量を変えて適応的モデルで分離および認識精度を改善するシステムの開発を進める。
次年度使用額が生じた理由	年度内の実験計画で必要だった分を購入でき、残りの必要な物品は次年度の研究計画にあわせて購入するのが妥当と考えたため。

研究成果
(4件)

すべて 2018

すべて学会発表 (4件) (うち国際学会 2件)

[学会発表] Multi-Condition Training of Denoising Autoencoder by Augmenting Simulated Reverberant Speech Data2018
- 著者名/発表者名
  Nahar Raufun、Kawai Takashi、Kai Atsuhiko
- 学会等名
  2018 IEEE 7th Global Conference on Consumer Electronics (GCCE 2018)
- 国際学会
[学会発表] Noise Robust Fundamental Frequency Estimation of Speech using CNN-based discriminative modeling2018
- 著者名/発表者名
  Kawamura Tomonori、Kai Atsuhiko、Nakagawa Seiichi
- 学会等名
  5th. International Conference on Advanced Informatics, Concepts, Theory, and Applications (ICAICTA)
- 国際学会
[学会発表] 音声クエリからの音声検索語検出におけるスコア統合モデル学習の効果2018
- 著者名/発表者名
  近藤宏樹，甲斐充彦，大石修司
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] CNN ベース識別モデルによる雑音に頑健な基本周波数の推定2018
- 著者名/発表者名
  川村智規，甲斐充彦，中川聖一
- 学会等名
  日本音響学会2018年秋季研究発表会

2018 年度 実施状況報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究代表者

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Multi-Condition Training of Denoising Autoencoder by Augmenting Simulated Reverberant Speech Data2018

著者名/発表者名

学会等名

[学会発表] Noise Robust Fundamental Frequency Estimation of Speech using CNN-based discriminative modeling2018

著者名/発表者名

学会等名

[学会発表] 音声クエリからの音声検索語検出におけるスコア統合モデル学習の効果2018

著者名/発表者名

学会等名

[学会発表] CNN ベース識別モデルによる雑音に頑健な基本周波数の推定2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

甲斐充彦静岡大学, 工学部, 准教授 (60283496)