2015 年度研究成果報告書

Deep Generative Model とその因子分解による音声情報処理基盤

研究課題

研究課題/領域番号	25280058
研究種目	基盤研究(B)
配分区分	一部基金
応募区分	一般
研究分野	知覚情報処理
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
研究分担者	岩野公司東京都市大学, メディア学部, 教授 (90323823) 篠崎隆宏東京工業大学, 大学院総合理工学研究科, 准教授 (80447903)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声情報処理 / 深層学習 / 話者適応
研究成果の概要	多数話者の発声した大量の音声データから、Deep Neural Network (DNN)を構築し、それを音韻と話者の要因毎に分解することで高性能な音声認識モデルを獲得する枠組みの研究開発を行った。2つのDNNの一部を共有させた構造をもつDeep Siamese Networkを用いた話者認識、音韻構造を階層的な出力層で表現したDNNを用いた話者適応化、Soft Targetを教師としたStudent-Teacher学習の枠組みを用いた話者正規化学習、の3つの手法を提案し、それぞれで話者認識性能、音声認識性能の顕著な向上を得た。それ以外にもDNNの実装、ネットワーク構造設計の研究を行った。
自由記述の分野	音声情報処理