音声の基本周波数の変化に基づいて方言音声の識別を行う方法を提案した。アクセントやイントネーションの情報を表す音声の基本周波数の時間的変化パターンを折れ線で近似し、その傾斜、開始周波数、持続時間に関する方言の特徴を抽出する。音声資料としてはNHKアナウンサーの他に全国5種の方言群の中から14種の方言(男声)を用いた。発声内容は童話「桃太郎」である。 まず音声の基本周波数を求めて、一定値以上の強さの音声区間を取り出し、それについて基本周波数の時間的変化パターンを、動的計画法(DP)により折れ線で最良近似する。折れ線の傾き、開始周波数等関連するパラメータ21種を求め、これらの主成分分析を行う。第6主成分までの累積寄与率は80%に達し、これによって14種の方言が分類できることを示した。 また、上記のパラメータを用いて判別分析を行ったところ、14種に分類する場合、学習データについては99%の識別率が得られたが、それ以外のデータについては62%となった。また、6方言グループに分類する場合はそれぞれ79%、74%となった。 さらに、上記データのクラスター分析を試みた。特徴パラメータとしては判別分析の結果が最も良かった5種を用いた。階層的クラスター分析により樹状図を作成したところ、14地点の方言が通常の方言区画図に比較的近い形で分類できることが分かった。 また、以上の手法は言語識別にもそのまま応用できる。そこで、日本語、韓国語、中国語、英語、ドイツ語、フランス語の各5名の男性話者が発声した各々約40秒の音声について、判別分析を行ったところ、6言語について96%の識別率が得られた。
|