研究概要 |
本研究は,人間と機械(特にコンピュータ)との間の情報伝達において,音声による入出力を積極的に導入し,人間にとって自然で使いやすいインタフェースを構築するための基礎的な知見を得ることを目標とするものである. 今年度は,まず,自然な音声インタフェースのための音声対話の分析として,人間同士の会話を大量に収集し,そのデータを統計的に分析することにより,自然なインタフェースのための音声対話のタイミングについての検討を行なった.具体的なタスクとして,2名1組で対話しながらパズルを解くものを選定した.複数話者の組み合わせにより約1時間程度の対話データを収集した結果を書き起こし,形態素解析と呼ばれる分析方法により細かい単位に区分した.各々の区分に対して音声対話の機能との関係を分析したところ,助詞を中心とする補助単語の出現頻度と対話特有の現象との強い相関が見られた. 次に,実環境での音声認識における問題である周辺雑音への対処に関して,前年度に提案したマルチバンド型モデルに基づく手法をさらに検討し,相互情報量を評価基準とした周波数帯域への重み付けを導入した.日本語音声データを用いた実験の結果,改良したモデルを適用した場合に最大8%程度の音声認識性能の向上を図ることができた. 以上の研究成果より,自然な音声インタフェースを構築するために,(i)音声対話のモデル化,(ii)実環境における効率的な音声認識モデル,の2点に関する基礎的な知見が得られたものと考える.
|