2018 Fiscal Year Research-status Report
実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク
Project/Area Number |
18K11431
|
Research Institution | Shizuoka University |
Principal Investigator |
甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 自動音声認識 / 音声認識誤り修正 / 音声検索語検出 / 言語知識拡充 / 話者音声分離 / 深層学習 / ディープニューラルネットワーク(DNN) |
Outline of Annual Research Achievements |
本年度は、初年度として以下の課題を設定して研究を行った。 (1)書き起こしの自動修正システムの開発:自動音声認識システムが出力する書き起こしテキストの誤りに対して、キーワード情報のみを人手で与える想定で書き起こしを自動修正するシステムを開発した。その仕組みは、既に開発済みの音声検索語検出技術を用い、入力されたキーワードの音声区間推定を行い、自動音声認識システムの中間出力情報であるラティスを自動的に操作することで実現した。 (2)修正入力情報を継続利用する技術の開発:上記の自動修正システムをもとに、修正を与えた語が繰り返し出現する場合の自動修正の精度を改善する仕組みを検討し、実装評価を進めた。具体的には、修正入力語の情報をもとに深層学習モデルによって言語モデル学習用のテキストデータを自動的に生成し、言語モデルに新しい語の知識を追加した適応言語モデルを学習する方法を提案した。そして、未修正部分の自動音声認識の精度が改善されるか評価実験によって検証を行った。実際の11名の学会講演(のべ2時間弱)の収録音声を用い、それぞれの話者の一部または全部のデータについて、前記(1)の方法による自動修正の効果と、修正語による言語モデル適応後の再認識の効果を評価し、共に認識精度の改善を得た。 (3)注目話者の音声分離技術の開発:今年度は、講義および会議音声を対象として、注目話者の音声と他人の音声を人工的に重畳した音声から、特定話者の条件で音声分離モデルをディープニューラルネットワーク(DNN)で学習する方法で実験を進めた。その結果、注目話者の10分強程度の話し言葉音声を利用して学習した音声分離モデルを利用することで、他の話者と重なりがある講演音声に対して自動音声認識の誤りを削減した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度に予定していた研究課題の各項目ともにほぼ所定の進展および成果が得られているため。
|
Strategy for Future Research Activity |
初年度の各研究項目について、当初の計画どおり研究をさらに発展させる。 (1)書き起こしの自動修正システムの開発:これまでに開発を進めた方法をベースとして、下記(2)で得られている成果を含めて適応学習の過程で得られる情報を利用して自動修正の効果を高めるシステムの開発を進める。 (2)修正入力情報を継続利用する技術の開発:これまでに開発してきた方法では、修正入力語は認識誤りの中の一部の名詞句部分に限定していた。より現時的に実際に人間が修正語としてフィードバックする内容やその種類について想定する範囲を広げて検討および評価を進める。 (3)注目話者の音声分離技術の開発:これまでは特定話者の条件で音声分離モデルを学習する方法で実験を進めたが、注目話者の学習用の音声データの量を変えて適応的モデルで分離および認識精度を改善するシステムの開発を進める。
|
Causes of Carryover |
年度内の実験計画で必要だった分を購入でき、残りの必要な物品は次年度の研究計画にあわせて購入するのが妥当と考えたため。
|
Research Products
(4 results)