研究課題/領域番号 |
25730105
|
研究種目 |
若手研究(B)
|
研究機関 | 東京大学 |
研究代表者 |
齋藤 大輔 東京大学, 大学院情報学環, 助教 (40615150)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声情報処理 / 声質変換 / 言語識別 / 行列変量 / 相対関係特徴 |
研究概要 |
本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、研究代表者がこれまでに行ってきたテンソル解析法に基づく言語性と話者性の分離手法とも関連が深い、「行列変量確率分布」に基づく新しい声質変換の枠組みの構築、及び相対関係特徴量の言語識別への応用について取り組んだ。声質変換は話者変換とも呼ばれ、入力音声の言語内容を保持しつつ、 話者性などの非言語情報を所望のものに変換する技術である。声質変換のスタンダードな手法である混合ガウス分布に基づく声質変換では、結合ベクトルを用いた同時確率の学習という方法が一般に用いられるが、これは特徴量空間のモデル化(=言語性に相当)と話者の関係性のモデル化(=話者性に相当)が混在して行われていると考えられる。そこで同時確率の学習に際して、行列形状のままその確率分布を考える「行列変量確率分布」を導入し、これに基づく混合ガウス分布を考える事で、より高精度なモデル学習を実現した。これに加えて、事象間の相対関係に基づく新しい特徴量を言語識別に導入する手法についてその初期検討を行い、一定の有効性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
声質変換および言語識別という二つの分野において、それぞれ新しい知見を発見しており、当初の音声情報処理技術の確立という観点からも、おおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
行列変量の確率分布とテンソル解析の融合および、話者認識への応用等について現在検討を行っている。
|
次年度の研究費の使用計画 |
国際会議等での発表・調査について、学内業務専念期間等により行うことができなかったため。 国際会議等での発表・調査の充実と、実応用向けアプリケーションの作成等への使用を計画している。
|