2018 Fiscal Year Research-status Report
Project/Area Number |
17K12711
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
郡山 知樹 東京工業大学, 工学院, 助教 (50749124)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 統計音声合成 / ガウス過程潜在変数モデル / 生成モデル / 深層ガウス過程 / アクセント / 韻律 / 音声情報処理 / 半教師あり学習 |
Outline of Annual Research Achievements |
アクセントや句末の疑問・確認などの発話意図に伴う韻律情報を音声から自動獲得する手法として,ガウス過程潜在変数モデルを用いた,韻律の分散表現の開拓・確立を目的として,本年度は以下の成果を得た. 1.初年度に行ったガウス過程を深層構造化した深層ガウス過程(DGP)モデルの学習法の確立を行った.前年度に提案したDGP音声合成は初期値によって学習が正常に行われない場合があることがわかった.そこで,初期値にロバストな学習を行うための手法として,モデル化したい深層ガウス過程と類似した構造を持つ深層ニューラルネットワーク(DNN)を用いる事前学習手法を提案し,提案法によって頑健な学習ができることを示した.また,DNN音声合成とDGP音声合成の聴取試験による比較実験を行い,DGP音声合成で生成した音声が高い自然性を有することを明らかにした. 2.DGP音声合成において,入力の一部を低次元の潜在変数で表現する深層ガウス過程潜在変数モデルを導入した.これにより入力変数として使用される韻律情報が未知であっても,韻律情報を潜在変数の分布として表すことが可能であり,これを用いることで音声合成の半教師あり学習を行うことができる.アノテーションコストの高い日本語のアクセントに対して評価実験を行い,アクセントラベルの付与された音声データが1割程度であっても,すべてのデータにラベルが付与されている場合と同程度に品質の高い合成音声を生成可能であることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は,アノテーションコストの高いあるいは困難な韻律表現に対し,ガウス過程の潜在変数モデルを用いて分散表現を行うことであった.深層ガウス過程を用いることで,音声の言語的および音響的特徴の複雑な関係をモデル化しつつ,潜在変数を導入することに成功した.また,アクセントラベルの付与されていないデータによる半教師あり学習の応用例を示すことができたため,順調に進展していると言える.
|
Strategy for Future Research Activity |
当初の計画通り,アクセントだけでなく,会話音声に現れる句末表現や,英語の強勢など他言語の韻律表現に適用し,その汎用性を検討する.また,深層ガウス過程潜在変数モデルは学習時間が長くなってしまうという問題があるため,計算コストの削減手法を検討する.
|
Causes of Carryover |
本年度は主に既存のデータベースを用いた基礎的な研究に着手していたため,コーパス代や設備費が節約できた.次年度は応用に用いるアクセントラベルつきコーパスの整備,実験に用いるコンピュータの購入,クラウドソーシングによる評価実験,および成果発表が主な予算の使途である.
|
Research Products
(4 results)