• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実施状況報告書

異種音声単位と複数言語を用いた高分解能音声特徴空間の構築と応用の研究

研究課題

研究課題/領域番号 15K00262
研究機関国立研究開発法人産業技術総合研究所

研究代表者

李 時旭  国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)

研究分担者 伊藤 慶明  岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
研究期間 (年度) 2015-10-21 – 2018-03-31
キーワード音声認識 / 異種音声単位 / 深層学習 / システム統合 / 音声検索語検出
研究実績の概要

平成28年度の研究は、異種音声単位を用いた高分解能の音声特徴空間を構築するために、異種単位の深層学習(Deep Neural Network; DNN)モデル構築と事後処理の統合手法の研究を進めてきた。
まず、従来のガウス混合分布(Gaussian Mixture Model; GMM)との比較実験を行い、深層学習を用いることで基本性能を大きく高めることを確認した。その上、入力特徴空間と出力クラスの両方面に異なる定義を用いる提案の異種音声単位を導入することに成功した。高い性能と低い相関性で定義した異種性の定量的な数値とシステム統合のよる性能向上との比例性を、音声検索語検出の音声認識応用タスクを対象に、実証実験から証明した。
研究成果として、異種単位の深層学習モデル構築と音声検索語検出への応用に関する2件の論文が、音声認識や音声信号処理に関する国際会議であるInterspeech 2016に採択された。更に、時系列データの時間軸情報に有効的と知られてきたLong Short-Term Memory Recurrent Neural Network(LSTM-RNN)に対して、提案手法の異種音声単位による高分解能の音声特徴空間を構築でき、初年度のDNNを用いた手法を上回る結果を得ることができ、国際会議(Interspeech2017)へその成果を投稿した。
これらの研究実績から、本研究で提案した異種音声単位による高分解能音声特徴空間が、従来モデルのGMMから最先端のDNN, LSTM-RNNモデルまでの幅広い音声認識システム上で有効であることが確認できた。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

二年目の平成28年度では、本研究課題である異種音声単位による高分解能音声特徴空間の構築を最先端研究のDNNやLSTM-RNNを用いたシステムへ拡張することを主として研究を行った。このような研究進行は、提案手法の有効性を明確にするためには、最高性能を持つシステム上での性能向上を確認する必要があるためである。
性能向上の詳細な数値として、従来のGMMによる66.90の検索率を、単一DNNシステムを用いることで81.03まで向上できることから、本研究課題の提案手法である文脈依存音素(Context Dependent Phoneme)と音素片(Sub-Phonetic Segment; SPS)の異種音声単位を統合する手法により、84.47の検索率を得た。更に、LSTM-RNNにも適用出来て、88.32の最高性能を得ることができた。
これらの性能向上を数値として確認できたことと共に、最先端研究のDNNやLSTM-RNNを用いたシステム上でも提案手法による大幅な性能向上を確認できたことは、当初の研究目標以上の進展と考えられる。

今後の研究の推進方策

本研究課題の最終年度である平成29年度では、二つの方策を設定して研究を推進する予定である。一つ目は、異種音声単位の統合モデル構築を進める。異種音声単位の特徴空間が個別の音声単位で構築されるため、現状では事後処理による統合を行っている。この事後処理手法では、システム構築や実行時の処理時間、メモリなどの計算資源などが統合する異種情報の倍数以上に必要とする問題がある。次年度では、sequence-to-sequence手法を用いて処理時間や計算資源問題の解決を目指す研究を進める。即ち、異種音声単位を中間処理で統合して単一の結果を出すシステムの構築を目指す。二つ目は、英語音声を統合したモデルにより、更なる高分解能音声特徴空間の研究を進める。
二つの方策を研究しながら、異種情報による性能向上のメカニズムにおける学術的な究明と最先端研究のLSTM-RNNを発展させる研究を、提案手法の異種情報の統合により進める。

次年度使用額が生じた理由

採択が平成27年度後半の追加採択であるため、研究設備を導入や構築が遅れた。また、深層学習は研究補助より計算機での処理が主になった。これらの理由から次年度で使用する予算額が生じた。

次年度使用額の使用計画

最終年度である次年度における国際会議での研究発表における旅費や学術誌への投稿費用として補充する。

  • 研究成果

    (11件)

すべて 2017 2016

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (10件) (うち国際学会 3件、 招待講演 1件)

  • [雑誌論文] 音声中の検索語検出における同文書内の高順位候補を利用したリスコアリング方式2016

    • 著者名/発表者名
      小嶋和徳, 紺野和磨, 田中和世, 李時旭, 伊藤慶明
    • 雑誌名

      電子情報通信学会論文誌情報・システムD

      巻: J100-D ページ: 70~80

    • 査読あり
  • [学会発表] 音声検索語検出システムのスコアリングに関する実験的検討2017

    • 著者名/発表者名
      李時旭, 小嶋和徳, 伊藤慶明
    • 学会等名
      日本音響学会2017年春季研究発表会
    • 発表場所
      神奈川県川崎市・明治大学生田キャンパス
    • 年月日
      2017-03-15 – 2017-03-17
  • [学会発表] SQ-STDにおけるDNN及びCTC導入方式の検討2017

    • 著者名/発表者名
      紺野良太, 小嶋和徳, 李時旭, 田中和世, 伊藤慶明
    • 学会等名
      日本音響学会2017年春季研究発表会
    • 発表場所
      神奈川県川崎市・明治大学生田キャンパス
    • 年月日
      2017-03-15 – 2017-03-17
  • [学会発表] 音声中の検索語検出における拗音及び長母音モデルの検討2017

    • 著者名/発表者名
      関恒平, 小嶋和徳, 李時旭, 田中和世, 伊藤慶明
    • 学会等名
      日本音響学会2017年春季研究発表会
    • 発表場所
      神奈川県川崎市・明治大学生田キャンパス
    • 年月日
      2017-03-15 – 2017-03-17
  • [学会発表] An integration method of multiple search results for spoken term detection2016

    • 著者名/発表者名
      清水嘉乃, 岩崎瑛太郎, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
    • 学会等名
      5th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan
    • 発表場所
      Honolulu Hawaii
    • 年月日
      2016-11-29 – 2016-11-29
    • 国際学会
  • [学会発表] STDにおける複数検索結果のスコア優先統合方式2016

    • 著者名/発表者名
      清水嘉乃, 岩崎瑛太郎, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
    • 学会等名
      日本音響学会2016年秋季研究発表会
    • 発表場所
      富山大学
    • 年月日
      2016-09-14 – 2016-09-16
  • [学会発表] サブワード/状態/フレーム照合スコアの統合によるSQ-STD検索精度向上2016

    • 著者名/発表者名
      紺野良太, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
    • 学会等名
      日本音響学会2016年秋季研究発表会
    • 発表場所
      富山大学
    • 年月日
      2016-09-14 – 2016-09-16
  • [学会発表] Generating complementary acoustic model spaces in DNN-based sequence-to-frame DTW scheme for out-of-vocabulary spoken term detection2016

    • 著者名/発表者名
      Shi-wook Lee, Kazuyo Tanaka, Yoshiaki Itoh
    • 学会等名
      INTERSPEECH 2016
    • 発表場所
      San Francisco, USA
    • 年月日
      2016-09-08 – 2016-09-12
    • 国際学会
  • [学会発表] RESCORING BY COMBINATION OF POSTERIORGRAM SCORE AND SUBWORD-MATCHING SCORE FOR USE IN QUERY-BY-EXAMPLE2016

    • 著者名/発表者名
      Masato Obara, Kazunori Kojima, Kazuyo Tanaka, Shi-wook Lee, Yoshiaki Itoh
    • 学会等名
      INTERSPEECH 2016
    • 発表場所
      San Francisco, USA
    • 年月日
      2016-09-08 – 2016-09-12
    • 国際学会
  • [学会発表] 音声中の検索語検出の研究動向とDNNの導入事例2016

    • 著者名/発表者名
      伊藤慶明, 紺野良太, 小原真人, 李 時旭, 田中 和世
    • 学会等名
      音声研究会・音声言語情報処理研究会 合同研究会
    • 発表場所
      山形県天童市
    • 年月日
      2016-07-29 – 2016-07-29
    • 招待講演
  • [学会発表] 音声中の検索語検出における音響距離構築方式の検討2016

    • 著者名/発表者名
      紺野良太, 李時旭, 田中和世, 小嶋和徳, 伊藤慶明
    • 学会等名
      音声研究会・音声言語情報処理研究会 合同研究会
    • 発表場所
      山形県天童市
    • 年月日
      2016-07-29 – 2016-07-29

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi