2020 Fiscal Year Research-status Report
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
Project/Area Number |
19K12027
|
Research Institution | Chubu University |
Principal Investigator |
山本 一公 中部大学, 工学部, 准教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声認識 / 音響モデル / モデル単位 / 深層学習 / 音響クラスタリング / 音素モデル / 単音モデル / 多言語 |
Outline of Annual Research Achievements |
本研究では、日本語音声認識の性能向上を目的として、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指している。研究は研究代表者(山本)による「深層学習を用いたクラスタリングによるモデル単位自動獲得」と、研究分担者(西崎)による「多言語単音モデル群による単音-音素マッピングの曖昧さ解消」に分かれる。 研究代表者(山本)は、2020年度は、DNN-HMMを用いた大語彙連続音声認識システムのDNN部の途中出力を特徴量として用い、これにディリクレ過程混合モデルを用いてクラスタリングすることにより音響モデル単位を自動的に獲得するフレームワークの構築を引き続き行った。実験結果より、音素コンテキストでは状態分割できないHMM状態を分割できることが確認されており、手法が有用そうであることが分かった。また、音響クラスタリングに関連する内容として音響イベントクラスタリングの研究を並行して行い、この成果を国際会議で発表した。 研究分担者(西崎)は、2020年度は、複数言語の同時音声認識における音声認識モデルにおいて、そのモデリング単位として音素を利用することを中心に検討した。複数言語の同時音声認識において、言語別に用意した音素を認識単位とする実験を行った。この実験結果から、音声認識の単位として音素を利用することが有用そうであることが分かった。さらに、話者や言語の違いを吸収するような音響モデリングを検討したところ、さらに音素モデルの精度が改善することが分かった。この成果を、日本音響学会研究発表会で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2020年度は、新型コロナウィルスの影響により研究活動に支障が出ており、当初予定よりも研究進捗が遅くなっている。 研究代表者(山本)は、大規模なHMMを用いた、状態統合まで含めた単位獲得の実験を進めているが、現状で十分な成果が得られていない。一方で、本研究で必要な音響クラスタリングについては、音響イベント分類で成果発表が出来た。 研究分担者(西崎)は、複数言語の同時音声認識における音声認識モデルにおいて、そのモデリング単位として音素を利用することを中心に検討してきた。現在は、音素以外の単位の検討(半音素や音節など)を行っているところである。
|
Strategy for Future Research Activity |
2020年度は、新型コロナウィルスの影響により、当初予定よりも研究進捗が遅れているため、2021年度は遅れを取り戻すべく、研究を進める。 研究代表者(山本)は、大規模なHMMを用いた、状態まで含めた単位獲得の研究を引き続き行う。音響クラスタリングにより状態分割・統合だけでなく、従来の音素コンテキストクラスタリングの改良を含めて手法を検討していく。また、中間表現を特徴量として用いるend-to-endフレームワークのような音声認識手法について検討する。 研究分担者(西崎)は、複数言語同時音声認識の精度改善のための音響モデルの単位の検討を実施する。まずは、2020年度に実施した複数言語音声認識における音素モデルにおいて、言語間での音素モデル共有化を行うことで、精度の改善を図る。この共有化によって、言語間での相互補完的な働きが期待でき、音声認識モデルの精度の改善を狙う。加えて、2021年度では、注意機構を導入した音響モデリングも検討する。例えば、音声認識によく利用されている音響特徴量としてメルフィルタバンク特徴量がある。音声言語によって、音声認識で有用な周波数帯が異なるはずであるので、どの周波数帯の特徴量を利用するのかを注意機構で動的に選択することで、音声認識の改善を狙う。 さらに,研究代表者・研究分担者共同で、研究の最終段階として、音声認識の中間表現として音素以外の単位(音節や文字など)の検討も行い、深層学習時代の音声認識において、どのような単位のモデル化によって、実環境下で頑健な音声認識を実現できるのかについて模索したい。
|
Causes of Carryover |
新型コロナウィルスの影響により、参加を予定していた学会や研究会が全て開催中止またはオンライン開催に変更になり、旅費の執行が生じなかったため、旅費を繰越すこととなった。また、新型コロナウィルスの影響により全世界的な半導体供給不足が生じ、GPU(Graphical Processing Unit; 深層学習に用いるグラフィックボード)を主として、研究に必要な計算機関連機材の調達が進まなかったため、物品費も繰り越すこととなった。 次年度は、学会が対面開催に戻れば旅費として執行するが、オンライン開催が継続される場合は、計算機やGPUの調達、ハードディスクドライブ等の消耗品費として執行する計画である。
|
Research Products
(2 results)