研究課題/領域番号 |
25280058
|
研究種目 |
基盤研究(B)
|
配分区分 | 一部基金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
研究分担者 |
岩野 公司 東京都市大学, メディア学部, 教授 (90323823)
篠崎 隆宏 東京工業大学, 大学院総合理工学研究科, 准教授 (80447903)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)
2015年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2014年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2013年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
|
キーワード | 音声情報処理 / 深層学習 / 話者適応 / マルチモーダル処理 |
研究成果の概要 |
多数話者の発声した大量の音声データから、Deep Neural Network (DNN)を構築し、それを音韻と話者の要因毎に分解することで高性能な音声認識モデルを獲得する枠組みの研究開発を行った。2つのDNNの一部を共有させた構造をもつDeep Siamese Networkを用いた話者認識、音韻構造を階層的な出力層で表現したDNNを用いた話者適応化、Soft Targetを教師としたStudent-Teacher学習の枠組みを用いた話者正規化学習、の3つの手法を提案し、それぞれで話者認識性能、音声認識性能の顕著な向上を得た。それ以外にもDNNの実装、ネットワーク構造設計の研究を行った。
|