Project/Area Number |
07221216
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Research Institution | Ryukoku University |
Principal Investigator |
有木 康夫 龍谷大学, 理工学部, 教授 (10135519)
|
Project Period (FY) |
1995
|
Project Status |
Completed (Fiscal Year 1995)
|
Budget Amount *help |
¥1,800,000 (Direct Cost: ¥1,800,000)
Fiscal Year 1995: ¥1,800,000 (Direct Cost: ¥1,800,000)
|
Keywords | 対話音声 / 単語スポッティング / 音素認識 |
Research Abstract |
人間が音声を聞き取り内容を理解する場合には、文のレベルで常に聞いているのではなく、音素、単語、フレーズ、文といった階層を選択していると考えられる。人間と機械の音声対話においても、文レベルで完全に解析するのではなく、解析できるところだけを解析して繋ぎ合わせ意味を補完する方法は、対話の文法が完全ではないので、有効でありかつ実現可能な方法と考えられる。解析可能な単位としては、単語、フレーズ、部分文を考えることができるが、本研究では、単語・フレーズに限定して連続音声からこれを抽出(スポッティング)し、対話音声を評価することを目的としている。ワードスポッティングの技術は連続音声から既知語と未知語を判定しながら、既知語のみを抽出する技術である。平成6年度までの研究により、既知語と未知語の判別処理は、「連続音声のある時刻で既知語が終結するという事象の事後確率」を求める処理と等価であることを明らかにしてきた。この事後確率は、連続音声がすべて入力されてから計算されるため、実時間の処理が難しい。本研究では、発話の終了を待つことなく、フレーム同期で既知語の事後確率を計算してワードスポッティングを行う方式について研究した。この方式では、前向き尤度を利用できるため実時間向きのアルゴリズムを実現できる可能性がある。この提案手法を、平成6年度までに研究した方式と比較し、対話音声の解析手法を評価した。また、従来の代表的なワードスポッティング手法であるAT&T, BBN, NECの方式とも比較評価した。
|