研究概要 |
本研究では,人と計算機間との音声対話をより高度なものにすることを目的とし,音声中の非語彙情報として「知覚的年齢」の推定に焦点を当て研究を行なった。昨年度の研究では,高齢者と非高齢者との識別を音声情報から行なうことを検討したが,本年度は対象とする年齢幅を広げ,また二値判断ではなく(聞こえとしての)年齢そのものを推定対象とした。まず,計500名からなる幅広い音声データベースに対して聴取実験を通して知覚的年齢ラベリングを施した。この場合,音声中の言語情報(文意)に引きずられずに年齢推定を行なうよう指示した。得られたラベル情報からデータベース話者の知覚的年齢を定義することになるが,この場合,被験者間の平均値を用いて「ラベル」として定義する方法と,知覚的年齢を「分布」として定義する二つの方法を検討した。次に,話者認識技術を用いてデータベース話者の各々をGMMを用いてモデル化した。その結果,入力未知話者音声に対して,データベース話者(約500名)との距離が計算されることになる。この距離値を用いて,ラベル/分布として定義した知覚的年齢の期待値(重み付き平均)を求めることで,未知入力話者の知覚的年齢を推定する。しかしながら,データベース話者の年齢分布に偏りがあるため,この偏りをキャンセルする必要がある。ここでは,年齢の事前分布として一様な分布を想定し,データベースの全話者から等しい距離にある入力話者の推定年齢が一様分布となる(即ち完全な年齢不詳者となる)ようキャンセル関数を用意した。実験の結果,分布としてデータベース話者の知覚的年齢を定義した場合の有効性が示され,また,聴取実験より定義した知覚的年齢と推定年齢とには,ほぼy=xの関係があることを示すことができた。しかし,一部のデータにおいて大きなずれが生じることも実験的に明確になった。種々の検討を行なったが,話者モデリング技術(即ち,音声のスペクトル包絡の時間平均パターンで個人性をモデル化する技術)のみに基づくことの技術的限界点であると考察している。昨年度高齢者同定実験において,パワーの微小変動や,話速などの韻律的特徴の有効性が示されており,これらの有効利用を検討する必要があると考えている。また,年齢同定技術の応用可能性についても検討する必要がある。
|