1999 Fiscal Year Annual Research Report
音声入力を含むヒューマンインタフェースに関する基礎的研究
Project/Area Number |
11780314
|
Research Institution | Chiba Institute of Technology |
Principal Investigator |
大川 茂樹 千葉工業大学, 工学部, 助教授 (40306395)
|
Keywords | 音声認識 / ヒューマンインタフェース / 音声対話 / キーワードスポッティング / 韻律 / 実環境音声認識 |
Research Abstract |
本研究は,人間と機械(特にコンピュータ)との間の情報伝達において,音声による入出力を積極的に導入し,人間にとって自然で使いやすいインタフェースを構築するための基礎的な知見を得ることを目標とするものである. 本年度は,まず,キーワードスポッティングと呼ばれる技術(連続音声中に現れるキーワードを逐次検出していく技術)を利用して,発声された音声信号に含まれる音響的情報をボトムアップに抽出する方法について検討した.発声形態が崩れる(人間の会話により近づく)につれて,認識性能にどのような変化が生じるか,という点に特に着目し,英語音声に対する音声認識率の推移を調査した結果,強調して発声したキーワードについては文法的な崩れがさほど大きな影響を与えないという知見を得た.同時に,音声の韻律的特徴(声の大きさやイントネーション等の特徴)の分析も行なった. 次に,実環境での音声認識における最も大きな問題である周辺雑音への対処について,マルチバンド型モデルに基づく音声認識手法を導入し,主に効果的なモデルの設計について情報理論に基づく定式化を提案した.日本語音声データを用いた実験の結果,提案したモデルを適用した場合に,未適用時に比べて最大25%の音声認識性能の向上を図ることができ,本手法の有効性が確認された. 次年度は,これらの検討結果をもとに,自然な音声インタフェースのための音声対話のタイミングに関する検討を行う予定である.
|
Research Products
(4 results)
-
[Publications] S.Okawa,T.Nakajima,K.Shirai: "A recombination strategy for multi-band speech recognition"Proc.6th European Conference on Speech Communication & Tech. S4 OR 1.5. 603-606 (1999)
-
[Publications] 大川茂樹、中島雄大、白井克彦: "マルチバンド型音声認識のための部分帯域特微量の情報量評価"電子情報通信学会技術研究報告. SP99-97. 25-30 (1999)
-
[Publications] I.Dawa,S.Okawa,K.Shirai: "Design of Mongolian speech database considering dialectal characterist"The Journal of the Acoustical Society of Japan. 20.3. 181-188 (1999)
-
[Publications] 大川茂樹、白井克彦: "マルチバンド音声認識における部分帯域への重み付けの検討"日本音響学会講演論文集. 3-Q-1. 119-120 (1999)