2015 Fiscal Year Annual Research Report

Deep Generative Model とその因子分解による音声情報処理基盤

Research Project

Project/Area Number	25280058
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903) 岩野公司東京都市大学, メディア学部, 教授 (90323823)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声情報処理 / マルチモーダル処理
Outline of Annual Research Achievements	様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model(DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する。音声情報処理のための新しい方法論とそのための技術基盤を確立する。初年度は教師なし学習によりDeep Neural Network (DNN)の一つの形態であるAutoencoderを構築し、それから更にSiameseネットワークを構成して、音声信号から話者情報を抽出する仕組みを提案し、話者適応における効果を確認した。次年度は、それとは別角度からのアプローチで、話者の少量の音声を用いて音声情報から音素モデルを学習することで音声から音素情報を分離し、それを制約として、より複雑な環境依存音素モデルを学習する手法を提案した。これも話者適応において効果を確認し、本年度に入ってからいくつかの他機関で追随研究が発表されている。最終年度である昨年度は、これらの成果を基盤として、当該ドメイン（話者適応の場合は当該話者)の大量のラベルなしデータを併せて用いることにより、さらに性能を向上させる枠組みを研究した。具体的には、1) まず大規模データが存在するドメインで高性能な大規模DNNを学習する。2) 次に新しいドメイン向けの小規模DNNを小規模データを用いた教師有学習で構築する。3) さらに、新しいドメインの大量の教師なしデータを前述の大規模DNNに入力し、その出力(0から1までの実数)を得る。4) 前ステップで得られた出力信号を教師として、小規模DNNをさらに学習する。これはStudent-Teacher Learning の枠組みでsoft-target learningを行っていることに相当する。この方法を用いることで、ドメインに適応した、小型かつ高性能なDNNを獲得できることを評価実験で確認した。
Research Progress Status	27年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	27年度が最終年度であるため、記入しない。
Causes of Carryover	27年度が最終年度であるため、記入しない。
Expenditure Plan for Carryover Budget	27年度が最終年度であるため、記入しない。

Research Products
(6 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Invited: 2 results)

[Journal Article] Wise Teachers Train Better DNN Acoustic Models2016
- Author(s)
  R. Price, K. Iso, K. Shinoda
- Journal Title
  
  EURASIP Journal on Audio Speech and Music Processing
  
  Volume: 2016 Pages: 1-19
- DOI
  10.1186/s13636-016-0088-7
- Peer Reviewed / Open Access
[Presentation] 音声・画像・映像におけるDeep Learningを用いたパターン認識2015
- Author(s)
  篠田浩一
- Organizer
  人工知能学会AIチャレンジ研究会
- Place of Presentation
  慶応大学
- Year and Date
  2015-11-12 – 2015-11-12
- Invited
[Presentation] A DNN-Based ASR System for the Indonesian Language2015
- Author(s)
  Devin Hoesen, Ryan Price, Puji Lestari Dessi, Koichi Shinoda
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  会津大学
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 活性化関数のパラメータ制御を用いた LSTM による音声認識2015
- Author(s)
  松山祐輔, Ryan Price, 篠田浩一
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  会津大学
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 音声認識のためのDeep Learning2015
- Author(s)
  篠田浩一
- Organizer
  第25回日本神経回路学会全国大会
- Place of Presentation
  電気通信大学
- Year and Date
  2015-09-02 – 2015-09-04
- Invited
[Presentation] CNNから抽出した複数特徴量の統合に基づいた映像の意味インデクシング2015
- Author(s)
  福田竣, 井上中順, 篠田浩一
- Organizer
  第21回画像センシングシンポジウム (SSII)
- Place of Presentation
  パシフィコ横浜アネックスホール
- Year and Date
  2015-06-10 – 2015-06-12

2015 Fiscal Year Annual Research Report

Deep Generative Model とその因子分解による音声情報処理基盤

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)

Research Products

[Journal Article] Wise Teachers Train Better DNN Acoustic Models2016

Author(s)

Journal Title

DOI

[Presentation] 音声・画像・映像におけるDeep Learningを用いたパターン認識2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A DNN-Based ASR System for the Indonesian Language2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 活性化関数のパラメータ制御を用いた LSTM による音声認識2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声認識のためのDeep Learning2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] CNNから抽出した複数特徴量の統合に基づいた映像の意味インデクシング2015

Author(s)

Organizer

Place of Presentation

Year and Date

篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)