• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

音声認識における韻律利用のための確率的韻律表現に関する研究

Research Project

Project/Area Number 10780222
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

中井 満  北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)

Project Period (FY) 1998 – 1999
Project Status Completed (Fiscal Year 1999)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 1999: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 1998: ¥1,600,000 (Direct Cost: ¥1,600,000)
KeywordsF0信頼場 / F0信頼度 / ピッチパターン / 韻律 / 韻律句境界 / 音声認識 / 音声対話 / 韻律句境界検出 / 藤崎モデル
Research Abstract

本課題では音声認識を支援する特徴量として、音声の了解性に寄与する韻律(アクセント、イントネーション、リズムなど)に着目し、これらを「何如にパターン認識に用い易い特徴量として表現するか」および「どのように音声認識で利用するか」について検討を行なった。
まず、韻律特徴量の一つの表現形態として、F0信頼場を提案した。これは音声波形の自己相関に基づいた「時間-ピッチ周波数(F0)」のマトリクス状の特徴量であり、ピッチらしさ(F0信頼度)に基づいた表現である。この特徴量の有効性について、アクセント句境界検出(アクセント句のF0テンプレートと入力F0信頼場との累積F0信頼度最大を基準としたパターン整合により句境界を検出)、藤崎モデルの指令推定(F0パターン生成モデルにおけるアクセント指令、およびフレーズ指令をF0信頼度最大を基準とした山登り法によって推定)の2つの実験より、従来のF0特徴量を用いた場合と、ほぼ等価なアルゴリズムで実装が可能であることを示し、また、より精度の良い検出・推定結果が得られ、従来のF0パターンで煩わされたF0抽出エラーなどの問題に対処しうる特徴量であることを示した。
次に、音声認識における韻律の利用法として、前述の韻律句境界検出法によって得られるアクセント句境界情報を用い、音響尤度の韻律尤度の混合尺度を基準とした文音声認識システムを実装した。このシステムでは音響的に類似している複数の文候補のスコアに、韻律句構造的な確からしさを指標としたスコアを加算し、最もスコアの高い文を出力する。評価にあたっては、句読点の位置によって複数の文意に解釈できる音響尤度の等しい曖昧文20例程度に対し、ユーザの発声した意味通りの文認識を可能とした。
また、音声対話における韻律の利用法として、F0値やパワーを特徴量とした感情の変化を模擬するHMM(Hidden Marcov Model)を定義し、その実装および対話音声の収集を行なった。このシステムは、プロトタイプが組み上がったばかりの状況であり、今後、擬人化エージェントの研究として改良を重ねていく予定である。

Report

(2 results)
  • 1999 Annual Research Report
  • 1998 Annual Research Report
  • Research Products

    (3 results)

All Other

All Publications (3 results)

  • [Publications] 川本真一、中井満、下平博、嵯峨山茂樹: "動的尺度を用いた発話速度の推定"平成11年度電気関係学会北陸支部連合大会. 1. 369-369 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] 川本真一、井波暢人、加藤裕、槻尾洋志、藤永勝久、山崎義人、横山国宏、中井満、下平博、嵯峨山茂樹: "確率的な振舞を伴なう擬人化対話エージェント"Interaction2000. (2000)

    • Related Report
      1999 Annual Research Report
  • [Publications] Mitsuru Nakai: "The use of F0 reliability function for prosodic command analysis on F0 contour gen-eration model" The 5th International Conference on Spoken Language Processing. 1. 171-174 (1998)

    • Related Report
      1998 Annual Research Report

URL: 

Published: 1998-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi