2016 Fiscal Year Research-status Report
異種音声単位と複数言語を用いた高分解能音声特徴空間の構築と応用の研究
Project/Area Number |
15K00262
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Project Period (FY) |
2015-10-21 – 2018-03-31
|
Keywords | 音声認識 / 異種音声単位 / 深層学習 / システム統合 / 音声検索語検出 |
Outline of Annual Research Achievements |
平成28年度の研究は、異種音声単位を用いた高分解能の音声特徴空間を構築するために、異種単位の深層学習(Deep Neural Network; DNN)モデル構築と事後処理の統合手法の研究を進めてきた。 まず、従来のガウス混合分布(Gaussian Mixture Model; GMM)との比較実験を行い、深層学習を用いることで基本性能を大きく高めることを確認した。その上、入力特徴空間と出力クラスの両方面に異なる定義を用いる提案の異種音声単位を導入することに成功した。高い性能と低い相関性で定義した異種性の定量的な数値とシステム統合のよる性能向上との比例性を、音声検索語検出の音声認識応用タスクを対象に、実証実験から証明した。 研究成果として、異種単位の深層学習モデル構築と音声検索語検出への応用に関する2件の論文が、音声認識や音声信号処理に関する国際会議であるInterspeech 2016に採択された。更に、時系列データの時間軸情報に有効的と知られてきたLong Short-Term Memory Recurrent Neural Network(LSTM-RNN)に対して、提案手法の異種音声単位による高分解能の音声特徴空間を構築でき、初年度のDNNを用いた手法を上回る結果を得ることができ、国際会議(Interspeech2017)へその成果を投稿した。 これらの研究実績から、本研究で提案した異種音声単位による高分解能音声特徴空間が、従来モデルのGMMから最先端のDNN, LSTM-RNNモデルまでの幅広い音声認識システム上で有効であることが確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
二年目の平成28年度では、本研究課題である異種音声単位による高分解能音声特徴空間の構築を最先端研究のDNNやLSTM-RNNを用いたシステムへ拡張することを主として研究を行った。このような研究進行は、提案手法の有効性を明確にするためには、最高性能を持つシステム上での性能向上を確認する必要があるためである。 性能向上の詳細な数値として、従来のGMMによる66.90の検索率を、単一DNNシステムを用いることで81.03まで向上できることから、本研究課題の提案手法である文脈依存音素(Context Dependent Phoneme)と音素片(Sub-Phonetic Segment; SPS)の異種音声単位を統合する手法により、84.47の検索率を得た。更に、LSTM-RNNにも適用出来て、88.32の最高性能を得ることができた。 これらの性能向上を数値として確認できたことと共に、最先端研究のDNNやLSTM-RNNを用いたシステム上でも提案手法による大幅な性能向上を確認できたことは、当初の研究目標以上の進展と考えられる。
|
Strategy for Future Research Activity |
本研究課題の最終年度である平成29年度では、二つの方策を設定して研究を推進する予定である。一つ目は、異種音声単位の統合モデル構築を進める。異種音声単位の特徴空間が個別の音声単位で構築されるため、現状では事後処理による統合を行っている。この事後処理手法では、システム構築や実行時の処理時間、メモリなどの計算資源などが統合する異種情報の倍数以上に必要とする問題がある。次年度では、sequence-to-sequence手法を用いて処理時間や計算資源問題の解決を目指す研究を進める。即ち、異種音声単位を中間処理で統合して単一の結果を出すシステムの構築を目指す。二つ目は、英語音声を統合したモデルにより、更なる高分解能音声特徴空間の研究を進める。 二つの方策を研究しながら、異種情報による性能向上のメカニズムにおける学術的な究明と最先端研究のLSTM-RNNを発展させる研究を、提案手法の異種情報の統合により進める。
|
Causes of Carryover |
採択が平成27年度後半の追加採択であるため、研究設備を導入や構築が遅れた。また、深層学習は研究補助より計算機での処理が主になった。これらの理由から次年度で使用する予算額が生じた。
|
Expenditure Plan for Carryover Budget |
最終年度である次年度における国際会議での研究発表における旅費や学術誌への投稿費用として補充する。
|