VXMLを利用した英語音声対応アーキテクチャーの研究

Research Project

Project/Area Number	16652047
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	Foreign language education
Research Institution	Kagoshima University
Principal Investigator	竹内勝徳鹿児島大学, 法文学部, 教授 (40253918)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥500,000 (Direct Cost: ¥500,000) Fiscal Year 2005: ¥200,000 (Direct Cost: ¥200,000) Fiscal Year 2004: ¥300,000 (Direct Cost: ¥300,000)
Keywords	VXML / Flash / RealMedia / 音声認識 / 英語教材 / e-learning / smil2.0 / php / CALL / 双方向 / 英語 / CGI / 音声 / SMIL
Research Abstract	本研究ではVXMLについてはテレフォニーディバイスを購入する余裕がなかったため、既存のフリーVXMLサーバを利用して実験を継続することにした。音声ディバイスは電話を用いることになる。VXML文書は学習者にサーバ側の音声が質問をしそれに学習者が応答し、あらかじめ登録した選択肢にあてはまったら再度サーバ側が応答するという形式にした。例:サーバ:What sport do you like?学習者:Swimming.サーバ:How do you train in summer?この形式を発展させて別ファイルへ切り替えながら、様々な形式の会話を続けることが可能である。接続も非常に早くネットワーク構築の面では問題はない。ただ、サーバからの音声が合成音であるため会話としては非常に不自然であり、やはり現状ではリスニング教材としては不完全であると言わざるを得ない。これは既存の人工音声利用CD-ROM教材にも言えることである。今後の人工音声の質の向上が望まれる。本研究では、さらに、ローカルで音声認識エンジンを用い、スピーチ・トゥ・テキスト・チャット・ページやアニメ画像を音声によって動かす、エンタテイメント型教材の開発目標を立てた。まず、英語用の音声認識ソフトとしてはIBMのViaVoiceなどがあるため、音声入力についてはこれを使用することを前提とする。ViaVoiceではブラウザーへの音声入力にも対応しているので、あとはそれを入力するフィールドをもったチャットとエンタテイメントを統合したHTMLベースのアプリケーションを制作することが課題となる。当初計画どおりこれはマクロメディアのFLASHで行った。レイヤー1に画像、レイヤー2に音楽とモデル・スピーチ、レイヤー3に音声入力フィールドとボタンを配置し、レイヤー3は発音のタイミングのみに表示されるように設定した。学生アルバイトにより、様々な場所とシチュエーションでこのアニメーションの通信速度、並びにRealファイルに変換したときの動きをチェックしたが、いずれも良好であるということであった。