• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

Deep Generative Model とその因子分解による音声情報処理基盤

研究課題

研究課題/領域番号 25280058
研究機関東京工業大学

研究代表者

篠田 浩一  東京工業大学, 情報理工学(系)研究科, 教授 (10343097)

研究分担者 岩野 公司  東京都市大学, メディア学部, 准教授 (90323823)
篠崎 隆宏  東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード音声情報処理 / マルチモーダル処理
研究実績の概要

様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model (DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する、音声情報処理のための新しい方法論とそのための技術基盤を確立する。研究期間内ではヒューマンコミュニケーションマイニング(人間同士の対面対話からの情報抽出)を目的とし、大語彙音声認識、耐雑音音声認識、話者認識、マルチマイク音声認識、感情・意図認識、の各技術において従来技術を上回る性能を得ることを目指す。計算時間削減のためにGPGPU を用いた分散並列処理アルゴリズムを開発する。対話データベースを構築し方式評価を行う。初年度である昨年度は、多くの要因を含んでいる音声データを用いて、最尤基準に基づく教師なし学習により、Deep Generative Model (DGM)を構築し、大語彙音声認識において基本性能評価を行った。また、次にAutoencoderを構成し、それをもとに各要因を分解して切り出すSiamese モデルを開発した。話者認識においてその効果を確認した。今年度は、音声認識のための、話者の少数の発声を用いてシステムを話者に適応させる話者適応の方式を開発した。そこでは、音声における話者性を表す特徴と音韻性を表す特徴をFactorizeする必要がある。その目的のため、従来、triphoneを用いていた音韻特徴に対し、monophoneからの制約を加えることで、より話者性を分離できるアルゴリズムを開発し、その効果を実験で確認した。また、マルチモーダル処理のために、DNNを用いた映像のセマンティックインデキシング、映像からのイベント検出の実装・評価を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

初年度は話者認識に限られていた応用分野を、音声認識にまで広げ、特に、音声認識の話者適応手法を実装・評価し、その効果を確認している。

今後の研究の推進方策

因子分解を用いた手法を、一般の大語彙音声認識に適応する。また、音声と画像とをともに用いたマルチモーダル処理における因子分解を試みる。

次年度使用額が生じた理由

計算効率を向上させるためGPUサーバを複数購入する予定にしていたが、円安などの理由により、購入を予定していた製品の価格が予想より高くなり、よりスペックが劣るものを1台しか購入できなかった。

次年度使用額の使用計画

今年度の新しい予算と合わせ、購入を予定していたGPUサーバを購入する。

  • 研究成果

    (5件)

すべて 2015 2014

すべて 学会発表 (5件) (うち招待講演 3件)

  • [学会発表] 統計的パターン認識のための中間表現2015

    • 著者名/発表者名
      篠田浩一
    • 学会等名
      電子情報通信学会2015年3月SIP/AE/SP研究会
    • 発表場所
      石垣島ホテルミヤヒラ
    • 年月日
      2015-03-02 – 2015-03-02
    • 招待講演
  • [学会発表] A new speech recognition paradigm based on deep learning2015

    • 著者名/発表者名
      Koichi Shinoda
    • 学会等名
      APSIPA distinguished lecture
    • 発表場所
      University of Science, VNU-HCM(ベトナム)
    • 年月日
      2015-01-15 – 2015-01-15
    • 招待講演
  • [学会発表] Speaker Adaptation of Deep Neural Networks Usnig a Hierarchy of Output Layers2014

    • 著者名/発表者名
      Ryan Price, Kenichi Iso, Koichi Shinoda
    • 学会等名
      IEEE Spoken Language Technology (SLT) Workshop
    • 発表場所
      South Lake Tahoe (米国)
    • 年月日
      2014-12-07 – 2014-12-10
  • [学会発表] TokyoTech-Waseda at TRECVID 20142014

    • 著者名/発表者名
      Nakamasa Inoue, Zhuolin Liang, Mengxi Lin, Tran Hai Dang, Koichi Shinoda, Zhang Xuefeng, Kazuya Ueki
    • 学会等名
      NIST TRECVID workshop 2014
    • 発表場所
      セントラルフロリダ大学(米国)
    • 年月日
      2014-11-10 – 2014-11-12
  • [学会発表] Deep Learningによる新しい音声認識パラダイム2014

    • 著者名/発表者名
      篠田浩一
    • 学会等名
      日本神経回路学会主催セミナー「Deep Learningが拓く世界」
    • 発表場所
      京都大学東京オフィス(品川)
    • 年月日
      2014-08-26 – 2014-08-26
    • 招待講演

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi