1994 Fiscal Year Annual Research Report
Project/Area Number |
06808032
|
Research Institution | Hokkaido University |
Principal Investigator |
宮永 喜一 北海道大学, 工学部, 助教授 (20166185)
|
Keywords | 音声認識 / ニューラルネットワーク / 自己組織化ネットワーク / 時変音声分析 / 非定常スペクトル解析 / 適応的係数推定 / 並列処理 / セルラ-ニューラルネット |
Research Abstract |
1.最初に適応的な時変音声スペクトルの推定アルゴリズムを開発するため、その第1段階として、新しい時変確率モデルを設計した。このモデルは、音声の生成モデルにかなり忠実なモデルとして定義し、音声の有声音と無声音を区別して分析できるように構築されている。また推定モデルの設計と同時に推定手法も同時に開発し、両者を合わせる事で、無理のない時変性の特徴表現ができ、その推定も可能である事も示した。 2.次に音声の認識のために、時間変動も考慮する自己組織化ニューラルネットワークを設計した。自己組織化を行なう認識システムは、最初の段階で入力された特徴量をある距離に従って、自動的にクラスタリングする。ここでの特徴データは時間的に変動するスペクトルや波形のエネルギーを考えた。そこである程度の時間幅を持たせたデータセットを処理対象として、これを時間領域のマルコフ性を表現できる多層のクラスタリングネットワークによって自己組織化し、クラスタリングを行った。このクラスタリングは時間の変動に追従でき、さらに学習データに対して誤認識を生じさせない程度にクラスタの生成・融合・消滅を行なえるような評価基準をもたせている。その結果として未知データに対する汎化能力を向上させた。実験の結果、学習に要する時間をかなり短くしても、従来の認識方法と同程度の認識結果を得た。 3.導入された設備を利用して連続音声認識の実験を行なった。ここでは、特に学習のデータの正当性を厳しくチェックするために、2次元の時間とスペクトル空間の図形表示が必要になった。そのため、MATLABと関連のソフトウエアツールにより効率よく表示が可能となり、またその評価を最終的には人手によりチェックし、良好な学習データを作成できた。これにより、一般的に使われているATRの音声データを使っての、不特定話者認識は、少ないデータセットに関わらず/b,g,d/に関して、およそ87%となり、従来の手法でもっとも認識率の高い方法として考えられている方法と同程度の認識率を得ている。さらに、従来法に比べ学習の速度が数百倍以上速くなる事を確認した。
|
-
[Publications] Y.Miyanaga and K.Tochinai: "Design of time-varying ARMA models and its adaptive identification" Trans.IEICE Fundamentals. E77-A. 760-770 (1994)
-
[Publications] E.Hotira,Y.Miyanaga and K.Tochinai: "An adaptive method analyzing analytic speech signals" Trans.IEICE Fundamentals. E77-A. 800-803 (1994)
-
[Publications] Jun'ya Shimizu,Yoshikazu Miyanaga,and Koji Tochinai: "An estimation of time-varying parameters using multi-AR lattice models in subbands" IEEE Proceedings of ISCAS'94. 1. 245-247 (1994)
-
[Publications] 清水淳也、宮永喜一、栃内香次: "時変ARモデルのサブバンド適応同定に於けるレート変換の関する一考察" 電子情報通信学会論文誌(A). J77-A. 1118-1128 (1994)
-
[Publications] Eisuke Horita,Yoshikazu Miyanaga,Koji Tochinai: "A time-varying analysis based on analytic speech sugnals" Proceedings of ICSLP'94. S27-13. 1631-1634 (1994)
-
[Publications] Yisheng Li,Yoshikazu Miyanaga and Koji Tochinai: "Dynamics learning network with structured recurrent modules" Proceedings of ISPACS'94. 1. 93-97 (1994)
-
[Publications] Yisheng Li,Yoshikazu Miyanaga,andKoji Tochinai: "A module structured recurrent neural network capable of memorizing and regenerating dynamics" Proceedings of APCCAS'94. 1. 8-12 (1994)
-
[Publications] Jun'ya Shimizu,Yoshikazu Miyanaga, and Koji Tochinai: "Consideration on decimation factors in multirate adaptive filtering for a time-varying AR model" Proceedings of APCCAS'94. 1. 358-362 (1994)
-
[Publications] Rafiqul Islam,Makoto Hiroshige,Yoshikazu Miyanaga, Koji Tochinai: "Phoneme recognition system based on a modified TDNN using self-organizing clusterinf network" IEEE Proceedings of International Symposium on Circuits and Systems(in print). (1995)
-
[Publications] Yoshikazu Miyanaga,Hong Lan Jin,Rafiqul Islam,Koji Tochinai: "A self-organized network with a supervised training" IEEE Proceedings of International Symposium on Circuits and Systems. (in print). (1995)