研究課題/領域番号 |
19K20292
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京大学 |
研究代表者 |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 講師 (50749124)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2020年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | ガウス過程 / 深層学習 / 音声合成 / 潜在変数モデル / 時系列モデル / end-to-endモデル / 深層ガウス過程 / 音声情報処理 / 系列モデリング / 時系列モデリング / 機械学習 |
研究開始時の研究の概要 |
ヒューマン・マシン・コミュニケーションにおいて重要な機能である音声合成において,深層モデルを用いた機械学習は不可欠なものとなっている.しかし,広く用いられる深層ニューラルネットワーク(DNN)は,未知のデータに対する頑健性を保証しないという問題点がある.そこで本研究課題では,未知のデータに頑健なモデルとして提案されている深層ガウス過程に注目し検討を行う.具体的には,統計モデルに基づく音声合成において,DNNに替わるモデルとして深層ガウス過程に基づくモデルを提案し,応用研究の十分でない深層ガウス過程モデルに対し,音声合成への応用を通じて,学習データに頑健な学習法や時系列を考慮したモデル構造を検討する.
|
研究成果の概要 |
未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を,時系列のモデル化が必要な音声合成に応用する手法として,リカレント構造やself-attention構造,sequence-to-sequence構造を持つDGPを提案した.提案手法は同様の構造を持つDNN音声合成より高品質な音声を合成できる傾向があることを示した.本研究課題の成果によって,ニューラルネットワークに用いられる様々な構造がDGPでも実現可能であり,ベイズの特徴を用いた頑健な深層学習ができることを示した.
|
研究成果の学術的意義や社会的意義 |
現在,多くの機械学習の研究はDNNを基盤要素としているが,DNNの学習におけるハイパーパラメータの調整は手間のかかるものであり,機械学習モデルの構築は職人作業のようになっている現状がある.代替となり得るモデルとしてガウス過程回帰に注目が集まっているが,自由度が低く様々なデータに適用できない問題があった.本研究の応用実験によってガウス過程回帰の深層モデルとしての自由度の向上を明らかにした.この成果によって,音声に限らず自由度の高い深層学習モデルの頑健な学習への道筋の一つを示した.
|