2016 Fiscal Year Research-status Report

異種音声単位と複数言語を用いた高分解能音声特徴空間の構築と応用の研究

Research Project

Project/Area Number	15K00262
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	李時旭国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)
Co-Investigator(Kenkyū-buntansha)	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
Project Period (FY)	2015-10-21 – 2018-03-31
Keywords	音声認識 / 異種音声単位 / 深層学習 / システム統合 / 音声検索語検出
Outline of Annual Research Achievements	平成28年度の研究は、異種音声単位を用いた高分解能の音声特徴空間を構築するために、異種単位の深層学習(Deep Neural Network; DNN)モデル構築と事後処理の統合手法の研究を進めてきた。まず、従来のガウス混合分布(Gaussian Mixture Model; GMM)との比較実験を行い、深層学習を用いることで基本性能を大きく高めることを確認した。その上、入力特徴空間と出力クラスの両方面に異なる定義を用いる提案の異種音声単位を導入することに成功した。高い性能と低い相関性で定義した異種性の定量的な数値とシステム統合のよる性能向上との比例性を、音声検索語検出の音声認識応用タスクを対象に、実証実験から証明した。研究成果として、異種単位の深層学習モデル構築と音声検索語検出への応用に関する2件の論文が、音声認識や音声信号処理に関する国際会議であるInterspeech 2016に採択された。更に、時系列データの時間軸情報に有効的と知られてきたLong Short-Term Memory Recurrent Neural Network(LSTM-RNN)に対して、提案手法の異種音声単位による高分解能の音声特徴空間を構築でき、初年度のDNNを用いた手法を上回る結果を得ることができ、国際会議(Interspeech2017)へその成果を投稿した。これらの研究実績から、本研究で提案した異種音声単位による高分解能音声特徴空間が、従来モデルのGMMから最先端のDNN,　LSTM-RNNモデルまでの幅広い音声認識システム上で有効であることが確認できた。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 二年目の平成28年度では、本研究課題である異種音声単位による高分解能音声特徴空間の構築を最先端研究のDNNやLSTM-RNNを用いたシステムへ拡張することを主として研究を行った。このような研究進行は、提案手法の有効性を明確にするためには、最高性能を持つシステム上での性能向上を確認する必要があるためである。性能向上の詳細な数値として、従来のGMMによる66.90の検索率を、単一DNNシステムを用いることで81.03まで向上できることから、本研究課題の提案手法である文脈依存音素(Context Dependent Phoneme)と音素片(Sub-Phonetic Segment; SPS)の異種音声単位を統合する手法により、84.47の検索率を得た。更に、LSTM-RNNにも適用出来て、88.32の最高性能を得ることができた。これらの性能向上を数値として確認できたことと共に、最先端研究のDNNやLSTM-RNNを用いたシステム上でも提案手法による大幅な性能向上を確認できたことは、当初の研究目標以上の進展と考えられる。
Strategy for Future Research Activity	本研究課題の最終年度である平成29年度では、二つの方策を設定して研究を推進する予定である。一つ目は、異種音声単位の統合モデル構築を進める。異種音声単位の特徴空間が個別の音声単位で構築されるため、現状では事後処理による統合を行っている。この事後処理手法では、システム構築や実行時の処理時間、メモリなどの計算資源などが統合する異種情報の倍数以上に必要とする問題がある。次年度では、sequence-to-sequence手法を用いて処理時間や計算資源問題の解決を目指す研究を進める。即ち、異種音声単位を中間処理で統合して単一の結果を出すシステムの構築を目指す。二つ目は、英語音声を統合したモデルにより、更なる高分解能音声特徴空間の研究を進める。二つの方策を研究しながら、異種情報による性能向上のメカニズムにおける学術的な究明と最先端研究のLSTM-RNNを発展させる研究を、提案手法の異種情報の統合により進める。
Causes of Carryover	採択が平成27年度後半の追加採択であるため、研究設備を導入や構築が遅れた。また、深層学習は研究補助より計算機での処理が主になった。これらの理由から次年度で使用する予算額が生じた。
Expenditure Plan for Carryover Budget	最終年度である次年度における国際会議での研究発表における旅費や学術誌への投稿費用として補充する。

Research Products
(11 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (10 results) (of which Int'l Joint Research: 3 results, Invited: 1 results)

[Journal Article] 音声中の検索語検出における同文書内の高順位候補を利用したリスコアリング方式2016
- Author(s)
  小嶋和徳, 紺野和磨, 田中和世, 李時旭, 伊藤慶明
- Journal Title
  
  電子情報通信学会論文誌情報・システムD
  
  Volume: J100-D Pages: 70～80
- Peer Reviewed
[Presentation] 音声検索語検出システムのスコアリングに関する実験的検討2017
- Author(s)
  李時旭, 小嶋和徳, 伊藤慶明
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  神奈川県川崎市・明治大学生田キャンパス
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] SQ-STDにおけるDNN及びCTC導入方式の検討2017
- Author(s)
  紺野良太, 小嶋和徳, 李時旭, 田中和世, 伊藤慶明
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  神奈川県川崎市・明治大学生田キャンパス
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 音声中の検索語検出における拗音及び長母音モデルの検討2017
- Author(s)
  関恒平, 小嶋和徳, 李時旭, 田中和世, 伊藤慶明
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  神奈川県川崎市・明治大学生田キャンパス
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] An integration method of multiple search results for spoken term detection2016
- Author(s)
  清水嘉乃, 岩崎瑛太郎, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
- Organizer
  5th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan
- Place of Presentation
  Honolulu Hawaii
- Year and Date
  2016-11-29 – 2016-11-29
- Int'l Joint Research
[Presentation] STDにおける複数検索結果のスコア優先統合方式2016
- Author(s)
  清水嘉乃, 岩崎瑛太郎, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
- Organizer
  日本音響学会2016年秋季研究発表会
- Place of Presentation
  富山大学
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] サブワード/状態/フレーム照合スコアの統合によるSQ-STD検索精度向上2016
- Author(s)
  紺野良太, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
- Organizer
  日本音響学会2016年秋季研究発表会
- Place of Presentation
  富山大学
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] Generating complementary acoustic model spaces in DNN-based sequence-to-frame DTW scheme for out-of-vocabulary spoken term detection2016
- Author(s)
  Shi-wook Lee, Kazuyo Tanaka, Yoshiaki Itoh
- Organizer
  INTERSPEECH 2016
- Place of Presentation
  San Francisco, USA
- Year and Date
  2016-09-08 – 2016-09-12
- Int'l Joint Research
[Presentation] RESCORING BY COMBINATION OF POSTERIORGRAM SCORE AND SUBWORD-MATCHING SCORE FOR USE IN QUERY-BY-EXAMPLE2016
- Author(s)
  Masato Obara, Kazunori Kojima, Kazuyo Tanaka, Shi-wook Lee, Yoshiaki Itoh
- Organizer
  INTERSPEECH 2016
- Place of Presentation
  San Francisco, USA
- Year and Date
  2016-09-08 – 2016-09-12
- Int'l Joint Research
[Presentation] 音声中の検索語検出の研究動向とDNNの導入事例2016
- Author(s)
  伊藤慶明, 紺野良太, 小原真人, 李時旭, 田中和世
- Organizer
  音声研究会・音声言語情報処理研究会　合同研究会
- Place of Presentation
  山形県天童市
- Year and Date
  2016-07-29 – 2016-07-29
- Invited
[Presentation] 音声中の検索語検出における音響距離構築方式の検討2016
- Author(s)
  紺野良太, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
- Organizer
  音声研究会・音声言語情報処理研究会　合同研究会
- Place of Presentation
  山形県天童市
- Year and Date
  2016-07-29 – 2016-07-29

2016 Fiscal Year Research-status Report

異種音声単位と複数言語を用いた高分解能音声特徴空間の構築と応用の研究

Principal Investigator

李 時旭 国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 音声中の検索語検出における同文書内の高順位候補を利用したリスコアリング方式2016

Author(s)

Journal Title

[Presentation] 音声検索語検出システムのスコアリングに関する実験的検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] SQ-STDにおけるDNN及びCTC導入方式の検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声中の検索語検出における拗音及び長母音モデルの検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] An integration method of multiple search results for spoken term detection2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] STDにおける複数検索結果のスコア優先統合方式2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] サブワード/状態/フレーム照合スコアの統合によるSQ-STD検索精度向上2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Generating complementary acoustic model spaces in DNN-based sequence-to-frame DTW scheme for out-of-vocabulary spoken term detection2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] RESCORING BY COMBINATION OF POSTERIORGRAM SCORE AND SUBWORD-MATCHING SCORE FOR USE IN QUERY-BY-EXAMPLE2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声中の検索語検出の研究動向とDNNの導入事例2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声中の検索語検出における音響距離構築方式の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

李時旭国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)