2017 Fiscal Year Annual Research Report

Research on construction and application of high discriminative speech feature space using heterogeneous speech units and multiple languages

Research Project

Project/Area Number	15K00262
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
Co-Investigator(Kenkyū-buntansha)	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
Project Period (FY)	2015-10-21 – 2018-03-31
Keywords	音声認識 / 異種音声単位 / 深層学習 / システム統合 / 音声検索語検出
Outline of Annual Research Achievements	最近の深層学習技術は、多種多様な音声をより高次元の特徴空間でモデル化できるため、音声信号処理の分野においても飛躍的な性能向上が報告されている。しかし、殆どのシステムがまだ単一の音声単位を基に構築されるため、膨大なデータを用いても音声の多様性を十分にはモデル化できない問題が存在する。その解決策として、音声の多様性を十分にモデル可能な高分解能の音声特徴空間を、複数の異種音声単位を用いて構築することを目的として本研究を行っている。過去2年間の研究で、正規分布を用いた生成モデル、単純なフィードフォワードニューラルネットワーク、そしてより高い性能が報告されたLSTM-RNN(Long short-term memory Recurrent neural network)の回帰的な時系列モデルまで、本研究の異種音声単位に基づく高分解能の音声特徴空間が効果的であった成果を基に、今年度は複数システムの多様な出力を効果的に統合するアルゴリズムの開発に重点を置いた研究を行った。具体的には複数システムの統合における知識蒸留(knowledge distillation)の概念を導入した。異種音声単位の複数システムの事後確率を効果的に統合する手法を確立するため、ニューラルネットワークの最終層であるソフトマックスレイアの前後の段階でスコアヒュージョンを試した。従来手法の算術・幾何・調和平均や線形補間などと比較して事後確率の上限付き合計値によるスコアヒュージョンが最高性能である結果を得て、その研究成果をInterspeech2018に投稿した。また、音声検索語検出タスクへの成果についてInterspeech 2017で発表を行った。今後、高性能だが複雑であるシステムから有効的な情報のみを抽出して構成するシステムコンパクト化の研究において、本研究の上限付き合計値による統合手法を導入することが考えられる。

Research Products
(7 results)

All 2018 2017

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (6 results) (of which Int'l Joint Research: 2 results)

[Journal Article] 音声中の検索語検出におけるDeep Neural Networkの出力確率を用いたリスコアリング手法の提案2017
- Author(s)
  紺野良太、李時旭、田中和世、小嶋和徳、伊藤慶明
- Journal Title
  
  電子情報通信学会論文誌. D, 情報・システム
  
  Volume: J100-D Pages: 595～604
- Peer Reviewed
[Presentation] 音声検索語検出の距離値における事後確率の統合2018
- Author(s)
  李時旭,田中和世,伊藤慶明
- Organizer
  日本音響学会2018年春季研究発表会
[Presentation] 音声中の音声検索語検出におけるPosteriorgram照合の検索時間削減方式2018
- Author(s)
  小原真人,小嶋和徳,李時旭,伊藤慶明
- Organizer
  日本音響学会2018年春季研究発表会
[Presentation] 音声中の検索語検出における最上位候補を含む講演及びその類似講演優先方式2018
- Author(s)
  丹治遥,小嶋和徳,李時旭,南條浩輝,伊藤慶明
- Organizer
  日本音響学会2018年春季研究発表会
[Presentation] constructing acoustic distances between subwords and states obtained from a deep neural network for spoken term detection2017
- Author(s)
  金子大祐、紺野良太、小嶋和徳、田中和世、李時旭、伊藤慶明
- Organizer
  INTERSPEECH2017
- Int'l Joint Research
[Presentation] Acceleration for Query-by-Example Using Posteriorgram of Deep Neural Network2017
- Author(s)
  小原真人,紺野良太,小嶋和徳,田中和世,李時旭,伊藤慶明
- Organizer
  APSIPA ASC 2017
- Int'l Joint Research
[Presentation] 音声中の検索語検出におけるParagraph Vectorを用いたリスコアリング手法2017
- Author(s)
  清水嘉乃,李時旭,小嶋和徳,伊藤慶明
- Organizer
  日本音響学会2017年秋季研究発表会

2017 Fiscal Year Annual Research Report

Research on construction and application of high discriminative speech feature space using heterogeneous speech units and multiple languages

Principal Investigator

李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)

Research Products

[Journal Article] 音声中の検索語検出におけるDeep Neural Networkの出力確率を用いたリスコアリング手法の提案2017

Author(s)

Journal Title

[Presentation] 音声検索語検出の距離値における事後確率の統合2018

Author(s)

Organizer

[Presentation] 音声中の音声検索語検出におけるPosteriorgram照合の検索時間削減方式2018

Author(s)

Organizer

[Presentation] 音声中の検索語検出における最上位候補を含む講演及びその類似講演優先方式2018

Author(s)

Organizer

[Presentation] constructing acoustic distances between subwords and states obtained from a deep neural network for spoken term detection2017

Author(s)

Organizer

[Presentation] Acceleration for Query-by-Example Using Posteriorgram of Deep Neural Network2017

Author(s)

Organizer

[Presentation] 音声中の検索語検出におけるParagraph Vectorを用いたリスコアリング手法2017

Author(s)

Organizer

李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)