Research Abstract |
近年の計算機性能の飛躍的な向上,及び数理統計的なパラダイムに基づく音声処理/言語処理の高精度化によって,音声認識エンジンの性能は飛躍的に向上し,音声をインターフェイスとしたシステムやディクテーションシステムが,実用レベルでも見受けられるようになった。しかしながら従来の音声対話システム(特に認識エンジンを搭載した音声入力部)では,ユーザが発声する音声言語情報は一端認識エンジンによって文字化され,その文字列の中から必要な情報を抽出する,という処理体系のものが多い。本研究では,このようなパラダイムでは欠落してしまう情報に着眼し,特に,年齢に焦点をあて研究を行なった。具体的には,ユーザ(発話者)が高齢者か非高齢者か,という判断を自動的に高精度に行なう枠組みを構築した。 本研究では,話者の実年齢ではなく,聴取した時に感じる年代(知覚的年代)の推定を対象とするため,音声データベース中の各話者に対して知覚的年代のラベル付与から研究を開始した。'聴取実験によって各話者の年代を特定してもらい,その結果を用いてJNAS, S-JNASの2つのデータベース中の話者(約200名)を高齢者,非高齢者に分類した。次に,話者識別技術に基づいて,2つの話者グループのモデルをGMM(混合ガウス分布モデル)によってモデル化し,同定性能を実験的に調べたところ,91%の識別率が得られた。 この同定率向上を目的として,上記聴取実験の参加者に対して,何を基準として高齢話者と判断したのか,についてアンケート調査し,判断基準として用いられた音響的特徴について分析したところ,種々の韻律的特徴をキーとして判断している様子が観測された。そこで,候補となりえる韻律的特徴を同定実験を基に,その効果を分析したところ,発話速度と,パワーの局所的変動の2つが有効に寄与していることが分かった。最終的に話者識別技術に基づくモデリング(スコア)に,韻律に基づくスコアを加味することで,約95%まで同定率を上げることができた。また,実際にこの枠組みを音声インターフェイスの中に組み込むことを想定し,「高齢者と断定できた場合に可能となるサービス」についてもWoZ法に基づく実験を行ない,インターフェイスを構成する種々のパラメータ値の妥当性について予備的検討を行なった。その結果,高齢者向けのインターフェイスを積極的に導入することに対する種々の知見が得られた。
|