1999 Fiscal Year Annual Research Report
モーラ遷移確率モデルによる韻律の表現と音声認識への利用に関する研究
Project/Area Number |
11878058
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Keywords | モーラ遷移確率モデル / 基本周波数パターン / アクセント句 / 連続音声認識 / 離散型HMM / 連続分布モデル / アクセント型識別 / パターン生成 |
Research Abstract |
基本周波数パターンを中心とする韻律的特徴をモーラ単位で表現し、その遷移確率モデルにより韻律に関する事項を表現して検出、識別を行い、その結果を音声認識に利用することを目的とし、以下の成果を達成した。 1.既に、モーラ単位の基本周波数パターン(モーラ基本周波数パターン)をその形状と先行モーラからの基本周波数の平均値の変化によってコード化して表現した上で、その遷移確率モデルとしてアクセント句の基本周波数パターンをモデル化するモーラ遷移確率モデルを提案している。モデルとして採用したHMMの構造とコード化について改良を加えた。 2.ATR連続音声データベースについて、その韻律ラベルをモデル化に適したものに変更した上で、特定話者、不特定話者のアクセント句境界検出実験を行った。Tri-phoneモデルを用いた音韻境界の強制切り出しによって得たモーラ境界を利用した場合、70%〜75%の検出率、11%〜15%の挿入誤り率を得た。アクセント型の識別率としては6割程度であった。 3.モーラbi-gramとして、アクセント句境界を考慮しないものと考慮したものを用意し、前者で1段目、後者で2段目の認識を行う連続音声認識手法を開発した。上記ATR連続音声データベースを用いた認識実験で数%のモーラ認識率の向上を確認した。 4.離散型HMMであるモーラ遷移確率モデルを連続分布モデルとすることの検討を行った。基本周波数パターンをスプライン補間した後、2次曲線で近似し、その係数をパラメータとすることで数%の境界検出率の向上を得た。 モーラ遷移確率モデルにより、アクセント型、フレーズ境界位置を入力として基本周波数パターンを合成する手法を開発した。ビタビアルゴリズムによるパターン生成の際にモーラbi-gramを導入することで、自然な韻律を生成した。
|
-
[Publications] 岩野公司: "モーラを単位とした基本周波数パターンの確率モデル化とそれによるアクセント句境界の検出"情報処理学会論文誌. 40・4. 1356-1364 (1999)
-
[Publications] 広瀬啓吉: "Statistical modeling of prosodic features and its use for speech recognition"Proc. International Conf. on Speech Processing. 1. 43-52 (1999)
-
[Publications] 岩野公司: "Prosodic word boundary detection using mora transition modeling of fundamental frequency contours --Speaker independent experiments--"Proc. European Conf. on Speech Communication and Technology. (1999)
-
[Publications] 岩野公司: "Speaker-Independent detection of prosodic word boundary using mora transition modeling of fundamental frequency contours"Proc. Japan-China Symposium on Advanced Information Technology. 107-114 (1999)
-
[Publications] 岩野公司: "タイプライタ型音声認識へのアクセント句境界情報の利用"日本音響学会講演論文集. I. 7-8 (1999)
-
[Publications] 岩野公司: "語彙制約なし音声認識へのアクセント句境界情報の利用"電子情報通信学会技術研究報告(音声研究会). 73-78 (1999)
-
[Publications] 広瀬啓吉: "Detection of prosodic word boundaries by statistical modeling of mora transitions of fundamental frequency contours and its use for continuous speech recognition"Proc. IEEE International Conf. on Acoustics, Speech, & Signal Processing. (発表予定). (2000)