2015 Fiscal Year Annual Research Report
話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究
Project/Area Number |
25730105
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声情報処理 / 声質変換 / 話者認識 / 言語認識 / テンソル解析 / 行列変量 |
Outline of Annual Research Achievements |
本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換を時系列モデリングに拡張する事を本格的に検討すると共に、テンソル解析に基づく手法の効果を話者認識・言語認識の両面に対して検討し、その比較を行った。それぞれの個別の検討課題について、一定の有効性を確認することができた。今後はテンソル解析と行列変量確率分布を理論的・実用的な側面で融合していくことを検討している。
|