• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実績報告書

Deep Generative Model とその因子分解による音声情報処理基盤

研究課題

研究課題/領域番号 25280058
研究機関東京工業大学

研究代表者

篠田 浩一  東京工業大学, 情報理工学(系)研究科, 教授 (10343097)

研究分担者 篠崎 隆宏  東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
岩野 公司  東京都市大学, メディア学部, 教授 (90323823)
研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード音声情報処理 / マルチモーダル処理
研究実績の概要

様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model(DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する。音声情報処理のための新しい方法論とそのための技術基盤を確立する。初年度は教師なし学習によりDeep Neural Network (DNN)の一つの形態であるAutoencoderを構築し、それから更にSiameseネットワークを構成して、音声信号から話者情報を抽出する仕組みを提案し、話者適応における効果を確認した。次年度は、それとは別角度からのアプローチで、話者の少量の音声を用いて音声情報から音素モデルを学習することで音声から音素情報を分離し、それを制約として、より複雑な環境依存音素モデルを学習する手法を提案した。これも話者適応において効果を確認し、本年度に入ってからいくつかの他機関で追随研究が発表されている。最終年度である昨年度は、これらの成果を基盤として、当該ドメイン(話者適応の場合は当該話者)の大量のラベルなしデータを併せて用いることにより、さらに性能を向上させる枠組みを研究した。具体的には、1) まず大規模データが存在するドメインで高性能な大規模DNNを学習する。2) 次に新しいドメイン向けの小規模DNNを小規模データを用いた教師有学習で構築する。3) さらに、新しいドメインの大量の教師なしデータを前述の大規模DNNに入力し、その出力(0から1までの実数)を得る。4) 前ステップで得られた出力信号を教師として、小規模DNNをさらに学習する。これはStudent-Teacher Learning の枠組みでsoft-target learningを行っていることに相当する。この方法を用いることで、ドメインに適応した、小型かつ高性能なDNNを獲得できることを評価実験で確認した。

現在までの達成度 (段落)

27年度が最終年度であるため、記入しない。

今後の研究の推進方策

27年度が最終年度であるため、記入しない。

次年度使用額が生じた理由

27年度が最終年度であるため、記入しない。

次年度使用額の使用計画

27年度が最終年度であるため、記入しない。

  • 研究成果

    (6件)

すべて 2016 2015

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (5件) (うち招待講演 2件)

  • [雑誌論文] Wise Teachers Train Better DNN Acoustic Models2016

    • 著者名/発表者名
      R. Price, K. Iso, K. Shinoda
    • 雑誌名

      EURASIP Journal on Audio Speech and Music Processing

      巻: 2016 ページ: 1-19

    • DOI

      10.1186/s13636-016-0088-7

    • 査読あり / オープンアクセス
  • [学会発表] 音声・画像・映像におけるDeep Learningを用いたパターン認識2015

    • 著者名/発表者名
      篠田浩一
    • 学会等名
      人工知能学会AIチャレンジ研究会
    • 発表場所
      慶応大学
    • 年月日
      2015-11-12 – 2015-11-12
    • 招待講演
  • [学会発表] A DNN-Based ASR System for the Indonesian Language2015

    • 著者名/発表者名
      Devin Hoesen, Ryan Price, Puji Lestari Dessi, Koichi Shinoda
    • 学会等名
      日本音響学会2015年秋季研究発表会
    • 発表場所
      会津大学
    • 年月日
      2015-09-16 – 2015-09-18
  • [学会発表] 活性化関数のパラメータ制御を用いた LSTM による音声認識2015

    • 著者名/発表者名
      松山祐輔, Ryan Price, 篠田浩一
    • 学会等名
      日本音響学会2015年秋季研究発表会
    • 発表場所
      会津大学
    • 年月日
      2015-09-16 – 2015-09-18
  • [学会発表] 音声認識のためのDeep Learning2015

    • 著者名/発表者名
      篠田浩一
    • 学会等名
      第25回 日本神経回路学会 全国大会
    • 発表場所
      電気通信大学
    • 年月日
      2015-09-02 – 2015-09-04
    • 招待講演
  • [学会発表] CNNから抽出した複数特徴量の統合に基づいた映像の意味インデクシング2015

    • 著者名/発表者名
      福田 竣, 井上 中順, 篠田 浩一
    • 学会等名
      第21回画像センシングシンポジウム (SSII)
    • 発表場所
      パシフィコ横浜アネックスホール
    • 年月日
      2015-06-10 – 2015-06-12

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi