研究課題/領域番号 |
25730105
|
研究機関 | 東京大学 |
研究代表者 |
齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声情報処理 / 声質変換 / 話者認識 / 行列変量 / テンソル解析 |
研究実績の概要 |
本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換の更なる高精度化の検討、及びテンソル解析に基づく手法の話者認識への応用について初期検討を行った。前年度に行った混合ガウス分布に基づく声質変換における、行列形状のままその確率分布を考える「行列変量確率分布」の導入をさらに発展させ、時系列モデリングについても初期検討を行った。時間的に複数にわたる観測を直接行列変量確率分布でモデル化する方法論の定式化を行った。また話者認識の標準的な特徴量であるi-Vector に変わる新しい特徴量の導入として、これまで取り組んできたテンソル解析に基づく特徴量の利用を検討し、日本語音声での話者認識実験を通して、従来の特徴量よりも高精度な話者認識が行える事を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
声質変換および話者認識において、それぞれ従来知見から一歩進んだ実験検証を行えており、おおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
行列変量確率分布そのものを話者認識の認識系に組み込む事で、話者認識フレームワーク全体を統合的に取り扱う手法について現在検討を行っている。
|
次年度使用額が生じた理由 |
購入する備品の価格変動に伴うもの
|
次年度使用額の使用計画 |
備品の購入等に当てる予定
|