2011 Fiscal Year Research-status Report
Project/Area Number |
23650072
|
Research Institution | The University of Tokushima |
Principal Investigator |
鈴木 基之 徳島大学, ソシオテクノサイエンス研究部, 准教授 (30282015)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | ML-BEATS / モデル化 / 時系列解析 / 話者識別 / 音声符号化 |
Research Abstract |
本研究の目的は,音声符号化用に開発されたセグメント量子化法であるML-BEATS法を他分野に適用し,その有効性を探ることである。具体的には,以下の3つの分野での応用可能性を探る。1. 時間的遷移を考慮した話者識別用話者モデルの構築,2. 音声認識・音声合成に基づく超低ビットレート音声符号化法の開発,3. 脳波からの感情識別。本年度は,まず最初にML-BEATS法の高速化を行い,その後話者モデルの構築を行った。ML-BEATS法の高速化においては,「状態分割の前後で状態とベクトルとの対応関係に変化はない」という仮定を置くことで,HMMのパラメータの再推定を行うことなく状態分割を行う方法を提案した。アルゴリズムの詳細について検討が遅れてしまったため,現在のところこのアルゴリズムはまだ実装途中であり,どの程度高速化されるかについては,来年度早々にも実験を行い検証する予定である。話者モデルの構築においては,まず比較対象として従来から行われていたGMMによる話者識別法を実装し,話者識別実験の環境を整えるとともにベースとなる性能評価を行った。その後,ML-BEATS法による話者モデルの構築を行ったが,ML-BEATS法の高速化に手間取っていたため,大量のデータを用いた大規模なモデルの学習には至っておらず,性能評価はこれからとなっている。更には,近年の話者識別モデルはGMMからスーパーベクトルを用いたSVM等による識別に移行しつつあるため,そうした方法との関係についても検討する必要がある。最後に,当初来年度行う予定であった超低ビットレート音声符号化についても,今年度の予定が遅れぎみであることから前倒しで準備を開始し,現在は従来法である音素モデルによる音声符号化法の実装がほぼ終了した段階となっている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
ML-BEATS法は状態分割とHMMのパラメータ推定を繰り返すため,非常に計算量のかかる方法である。当初まずはML-BEATS法の高速化を行い,それを用いて各方面への応用可能性を探る予定であったが,ML-BEATS法の高速化法の提案と実装に時間がかってしまったため,各応用分野での大規模な実験が開始できない状況である。しかし,実験を行うための下準備(実験環境の整備や,比較すべき従来方法の実装など)は順調に進んでいる。話者識別のための話者モデルを構築する,というテーマについては,従来から用いられているGMMによる話者識別システムの実装を終え,比較対象としての従来法の識別結果を得ている。また,実験環境もYOHOと呼ばれる話者識別用データベースに加え,NISTが行っている話者識別コンテストに用いられたデータベースも準備し,こちらでの実験結果も得られるようになっている。そのため,世界の(同じNISTのデータベースを用いている)様々な研究結果と直接数値を比較できる状況にある。また,ML-BEATS法を用いた音声符号化については,HMMに基づく音声合成システムが動く状態にあり,それに対してどのような情報を入力(どのような情報を符号化して送信)すればよいか,といった解析も終わっている。あとは実際にML-BEATS法を用いて符号化用のモデルを構築した後,それを用いて音声を符号化する部分を実装すればよい状態であり,こちらの実験準備状況も順調と言える。結局のところ,ML-BEATS法の高速化に目処が立てば,すぐにでも実験を開始できる状況になっている。
|
Strategy for Future Research Activity |
まずは遅れているML-BEATS法の高速化法について,早急に開発をすすめる。おおよそのアルゴリズムは完成しているため,C言語による実装を急ぐ。今年度は,ML-BEATS法の実装におけるベースとして用いていたHTK(HMMの学習,認識等が行える研究用ツールキット。世界的に無料で公開され,数多くの研究者が使用している)を一部修正することで実装を行おうと検討してきたが,HTKの内部構造が複雑であり,プログラムソースに少し手を加えるといった方法での実装は非常に難しいものがあった。そこで,ファイルの入出力部分はHTKから流用した上で,中心となる計算部分は独自実装を行う。HTKにすでにあるコードと類似のコードを再実装する無駄もあると思われるが,結果的に独自実装をしてしまった方が時間的に早いと思われる。また,各応用分野での実験については,並行して旧来のML-BEATS法の実装で実験を行っておく。ML-BEATS法の計算に時間がかかるため,ある程度の規模でしか実験を行うことはできないと考えられるが,例え小規模であってもその分野での有効性を見る目安とはなると思われるため,まずは実験結果を得ておき,その規模においてのML-BEATS法の有効性を検討する。なお,まずはすでに実験環境の整備が終わっている話者識別と音声符号化の2つについて実験を行い,脳波からの感情識別については,その後着手することとする。その後,高速化されたML-BEATS法の実装を用いて大規模な実験を行う。
|
Expenditure Plans for the Next FY Research Funding |
次年度はプログラム開発,実験用の計算機を購入する。本年度からの繰り越し金があるため,仮にML-BEATS法の高速化に時間がかかってしまった場合,旧来のML-BEATS法の実装でもある程度の規模の実験ができるよう,よりスペックアップした高速な計算機を購入する。また,よい実験結果が得られた時は同計算機上にデモシステムを構築し,一般公開するためにも用いる。また,研究成果を国際会議等で発表するため,旅費や国際会議の参加費,論文の英文校正料,といった使途にも研究費を用いる。参加する国際会議としては,KES 2012(スペイン・サンセバスチャン)とAPSIPA 2012(米国・ハリウッド)を予定している。またそれ以外に,国内での研究発表会として,2012秋と2013春の日本音響学会研究発表会,電子情報通信学会音声研究会といった場所での発表を検討している。
|