研究課題/領域番号 |
17K12711
|
研究種目 |
若手研究(B)
|
配分区分 | 基金 |
研究分野 |
知覚情報処理
|
研究機関 | 東京大学 (2019) 東京工業大学 (2017-2018) |
研究代表者 |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 助教 (50749124)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 音声情報処理 / 韻律 / ガウス過程 / 機械学習 / 音声合成 |
研究成果の概要 |
統計的音声合成において,音声合成におけるラベルはテキストだけではなく,テキストに含まれない韻律情報などを含める必要がある.そこで,アクセントなどの韻律情報を音声から自動獲得する手法として,ガウス過程潜在変数モデルを用いた,韻律の分散表現の開拓・確立を行った.本研究ではまず複雑な言語特徴量から特徴抽出を行うモデルとして,深層ガウス過程による音声合成手法の確立を行った.深層ガウス過程では未知の韻律情報を確率変数として推定可能なため,ラベルの付与されていないデータに対して韻律の潜在変数を推論することで,音声合成の半教師あり学習の有効性を示した.
|
自由記述の分野 |
音声情報処理
|
研究成果の学術的意義や社会的意義 |
音声合成におけるラベルはテキストだけではなく,テキストに含まれない韻律情報などを含める必要があり,話し言葉やオーディオブックなどの多様な音声合成システムを構築する際には,ラベルを付与に係るコストなどの問題が生じる.また,同じテキストであっても文脈によって読み方が変わることによるテキストからの韻律推定の困難さや,ラベリングを行う人物間でのラベルの不一致が生じる.そこで本研究では機械学習により韻律を低次元の潜在空間で表現する自動化手法を提案し,データベース構築の容易さや,多様な韻律表現による豊かな音声合成の構築への基礎の構築を行った.
|