• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実績報告書

音声対話を通じた音声認識用音響・言語モデルの自動高精度化

研究課題

研究課題/領域番号 15K16051
研究機関大阪大学

研究代表者

武田 龍  大阪大学, 産業科学研究所, 助教 (20749527)

研究期間 (年度) 2015-04-01 – 2017-03-31
キーワード音声対話 / 音響モデル / 言語モデル / メンテナンスフリー
研究実績の概要

本研究課題では,音声認識の各モデルに関してメンテナンスフリーな音声対話システムの構築を行った.本年度は研究課題として挙げた,a) ロボット上での音声対話システムの構築やb) 音響モデル・c) 言語モデルの基礎技術開発に取り組んだ.主な研究成果として,1) Deep Neural Network (DNN) に基づく省メモリ・高速な音響モデル,2) DNN音源定位の教師なし適応, 3) 話し言葉に対する教師なし音素列の単語分割方法の構築,の3点を挙げる.
1) では,DNNパラメータの量子化とノードプルーニングを併用することで,CPU上の演算でも95%のメモリ削減と4倍の高速化を達成した.これによりリソースが限られた環境でも DNNを効率的に利用可能となる.2) では,未学習の音環境における定位性能の向上を目指し,正解ラベルなしで適応する技術に取り組んだ.音源位置に対するロバスト性の分析や周波数領域でのパラメータ適応など,この研究で得られた知見は音響モデル適応に生かすことができる.これら2点は,「ロボット上での音声対話システムの構築」や「音響モデルの高精度化」に必要不可欠な基礎技術である.
3) に関しては,話し言葉で未知語の切り出しを教師なしで行うため,ベイズ言語モデルの1つである隠れセミマルコフモデルに基づく言語モデルの拡張を行った.音素数を連鎖確率としてモデルに組み込むことで,収束速度の改善が見られた.昨年度成果のベイズ言語モデルと併用することで,話し言葉に対する未知語の検出や確率計算が可能となり,「言語モデルの高精度化」に大きく前進した.

  • 研究成果

    (8件)

すべて 2017 2016

すべて 雑誌論文 (2件) (うち査読あり 2件、 謝辞記載あり 2件、 オープンアクセス 1件) 学会発表 (6件) (うち国際学会 4件)

  • [雑誌論文] Acoustic model training based on node-wise weight boundary model for fast and small-footprint deep neural networks2017

    • 著者名/発表者名
      Ryu Takeda, Kazuhiro Nakadai, Kazunori Komatani
    • 雑誌名

      Computer Speech & Language

      巻: 印刷中 ページ: 印刷中

    • DOI

      10.1016/j.csl.2017.02.002

    • 査読あり / 謝辞記載あり
  • [雑誌論文] Noise-robust MUSIC-based Sound Source Localization using Steering Vector Transformation for Small Humanoids2017

    • 著者名/発表者名
      Ryu Takeda, Kazunori Komatani
    • 雑誌名

      Journal of Robotics and Mechatronics

      巻: 29 ページ: 26-36

    • DOI

      10.20965/jrm.2017.p0026

    • 査読あり / オープンアクセス / 謝辞記載あり
  • [学会発表] Unsupervised Adaptation of Deep Neural Networks for Sound Source Localization using Entropy Minimization2017

    • 著者名/発表者名
      Ryu Takeda, Kazunori Komatani
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • 発表場所
      New Orleans, Louisiana, USA
    • 年月日
      2017-03-07
    • 国際学会
  • [学会発表] Discriminative Multiple Sound Source Localization based on Deep Neural Networks using Independent Location Model2016

    • 著者名/発表者名
      Ryu Takeda, Kazunori Komatani
    • 学会等名
      IEEE Workshop on Spoken Language Technology (SLT)
    • 発表場所
      San Diego, California, USA
    • 年月日
      2016-12-16
    • 国際学会
  • [学会発表] Bayesian Language Model based on Mixture of Segmental Contexts for Spontaneous Utterances with Unexpected Words2016

    • 著者名/発表者名
      Ryu Takeda, Kazunori Komatani
    • 学会等名
      International Conference on Computational Linguistics (COLING)
    • 発表場所
      Osaka, Japan
    • 年月日
      2016-12-13
    • 国際学会
  • [学会発表] 量子化 Deep Neural Network のための有界重みモデルに基づく音響モデル学習2016

    • 著者名/発表者名
      武田龍, 中臺一博, 駒谷和範
    • 学会等名
      第46回 AIチャレンジ研究会
    • 発表場所
      東京, 日本
    • 年月日
      2016-11-09
  • [学会発表] Toward Lexical Acquisition during Dialogues through Implicit Confirmation for Closed-Domain Chatbots2016

    • 著者名/発表者名
      Kohei Ono, Ryu Takeda, Eric Nichols, Mikio Nakano and Kazunori Komatani
    • 学会等名
      Second Workshop on Chatbots and Conversational Agent Technologies (WOCHAT)
    • 発表場所
      Los Angeles, California, USA
    • 年月日
      2016-09-20
    • 国際学会
  • [学会発表] 方向依存活性化関数を用いた Deep Neural Network に基づく識別的音源定位2016

    • 著者名/発表者名
      武田龍, 駒谷和範
    • 学会等名
      第112回音声言語情報処理研究会
    • 発表場所
      山形県, 日本
    • 年月日
      2016-07-30

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi