2019 Fiscal Year Research-status Report
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
Project/Area Number |
19K12027
|
Research Institution | Chubu University |
Principal Investigator |
山本 一公 中部大学, 工学部, 准教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声認識 / 音響モデル / モデル単位 / 深層学習 / 音響クラスタリング / 音素モデル / 単音モデル / 多言語 |
Outline of Annual Research Achievements |
本研究では、日本語音声認識の性能向上を目的として、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指している。研究は研究代表者(山本)による「深層学習を用いたクラスタリングによるモデル単位自動獲得」と、研究分担者(西崎)による「多言語単音モデル群による単音-音素マッピングの曖昧さ解消」に分かれる。 研究代表者(山本)は、2019年度は、DNN-HMMを用いた大語彙連続音声認識システムのDNN部の途中出力を特徴量として用い、これにディリクレ過程混合モデルを用いてクラスタリングすることにより音響モデル単位を自動的に獲得するベースラインフレームワークの構築を行った。研究成果を広めやすいように、フレームワークとしては広く音声認識研究に用いられているKaldiおよびPytorch-Kaldiを採用した。学会等での研究発表を行うまでには至っていないが、HMM状態数が少ない場合の実験を行って性能向上が得られており、基本方針に誤りがないことを確認できている。 研究分担者(西崎)は、2019年度は、音素をよく表現できる音響特徴抽出についての研究を行った。ひとつは、音声信号をビット列に変換し、ビットの各桁をパルス信号と見なし、このパルス信号を入力とするニューラルネットワークを用いて特徴抽出する方法の検討であり、これが優れた特徴抽出が行えることを示した。この成果は世界的に著名な国際会議であるINTERSPEECH2019で発表した。また、複数言語(今回は6ヶ国)の音声を同時に用いてニューラルネットワークで複数言語の音素識別器を学習するのと同時に、言語識別器を同時に学習させ、言語識別器にGeneral Reverse Layerを用いることでより普遍的な音素音響特徴が取り出せないかを検討した。これらの研究成果は、2020年度の秋に予定されている学会や国際会議で発表を予定している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全体としてはおおむね順調に進展している。以下に、研究代表者(山本)と研究分担者(西崎)の進捗状況について述べる。 研究代表者(山本)は、実績の概要で述べたように、広く用いられている音声認識フレームワークであるKaldiおよびPytorch-Kaldiを改造した実験ベースラインフレームワークの構築を完了し、HMMの状態数が少ない場合の実験を行った結果性能向上を得ている。研究室内の事情により申請時に予備実験を行っていたフレームワークからの移行が必要になったため、計画の遅れも心配されたが、現在は概ね計画通りに推移している。今後は計画通りに大規模なHMMを用いた、状態統合まで含めた単位獲得の実験・検討を進めていく予定である。 研究分担者(西崎)は、実績の概要で述べたような進捗が得られ、成果の学会発表も行えており、順調に進捗している。現在は、ある音素などの「音韻」に着目したときに、言語に依存しない、話者に依存しない普遍的な音響特徴を抽出する試みを行っている。このような特徴量が抽出できれば、言語によらない音声認識が実現でき、多くの言語リソースを用いることで、音声認識の精度がより増していくと考えている。また、引き続き、音声データに対する新しい特徴抽出を模索しているところである。
|
Strategy for Future Research Activity |
現在はおおよそ計画通りに推移しているため、申請時の計画通りに、2020年度は研究代表者(山本)と研究分担者(西崎)でそれぞれ引き続いてサブテーマの研究を実施する。 研究代表者(山本)は、2020年度は、2019年度に構築したフレームワークを用いてより大規模な実験・検討を行う。具体的には、HMMの状態分割・統合をDNNを用いて得られる特徴量をクラスタリングすることで行い、現在の言語特徴を主とするHMMの状態定義から、より日本語音声認識に適した音響モデルを獲得する。 研究分担者(西崎)は、2020年度は、現在行っている言語に依存しない音響特徴量の抽出を行うことで、言語に依存しない新しい音素抽出のための方法を検討していく。このような特徴量が抽出できれば、言語によらない音声認識が実現でき、多くの言語リソースを用いることで、音声認識の精度がより増していくと考えている。 最終年度になる2021年度は、両者が研究により得た知見を統合して、より日本語に適した音響モデル単位の獲得を目指す予定である。
|
Causes of Carryover |
3月に情報収集のための学会出張を計画していたが、新型コロナウイルスによる影響で学会開催が中止となり、その分の旅費が残ってしまった。 次年度使用額については、2020年度も学会や国際会議は現地開催が行われるかどうか微妙な情勢であるため、物品費として現在不足しているストレージ(HDD)の購入に充てる計画である。
|
Research Products
(3 results)