2014 Fiscal Year Research-status Report
話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究
Project/Area Number |
25730105
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声情報処理 / 声質変換 / 話者認識 / 行列変量 / テンソル解析 |
Outline of Annual Research Achievements |
本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換の更なる高精度化の検討、及びテンソル解析に基づく手法の話者認識への応用について初期検討を行った。前年度に行った混合ガウス分布に基づく声質変換における、行列形状のままその確率分布を考える「行列変量確率分布」の導入をさらに発展させ、時系列モデリングについても初期検討を行った。時間的に複数にわたる観測を直接行列変量確率分布でモデル化する方法論の定式化を行った。また話者認識の標準的な特徴量であるi-Vector に変わる新しい特徴量の導入として、これまで取り組んできたテンソル解析に基づく特徴量の利用を検討し、日本語音声での話者認識実験を通して、従来の特徴量よりも高精度な話者認識が行える事を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
声質変換および話者認識において、それぞれ従来知見から一歩進んだ実験検証を行えており、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
行列変量確率分布そのものを話者認識の認識系に組み込む事で、話者認識フレームワーク全体を統合的に取り扱う手法について現在検討を行っている。
|
Causes of Carryover |
購入する備品の価格変動に伴うもの
|
Expenditure Plan for Carryover Budget |
備品の購入等に当てる予定
|
Research Products
(6 results)