2002 Fiscal Year Annual Research Report
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
Project/Area Number |
14019021
|
Research Institution | The University of Tokyo |
Principal Investigator |
峯松 信明 東京大学, 大学院・情報理工学系研究科, 助教授 (90273333)
|
Co-Investigator(Kenkyū-buntansha) |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Keywords | 知覚的年齢 / 話者認識 / ガウス混合モデル / 聴取実験 / 期待値 / 事後確立 / 分布推定 |
Research Abstract |
本研究では,人と計算機間との音声対話をより高度なものにすることを目的とし,音声中の非語彙情報として「知覚的年齢」の推定に焦点を当て研究を行なった。昨年度の研究では,高齢者と非高齢者との識別を音声情報から行なうことを検討したが,本年度は対象とする年齢幅を広げ,また二値判断ではなく(聞こえとしての)年齢そのものを推定対象とした。まず,計500名からなる幅広い音声データベースに対して聴取実験を通して知覚的年齢ラベリングを施した。この場合,音声中の言語情報(文意)に引きずられずに年齢推定を行なうよう指示した。得られたラベル情報からデータベース話者の知覚的年齢を定義することになるが,この場合,被験者間の平均値を用いて「ラベル」として定義する方法と,知覚的年齢を「分布」として定義する二つの方法を検討した。次に,話者認識技術を用いてデータベース話者の各々をGMMを用いてモデル化した。その結果,入力未知話者音声に対して,データベース話者(約500名)との距離が計算されることになる。この距離値を用いて,ラベル/分布として定義した知覚的年齢の期待値(重み付き平均)を求めることで,未知入力話者の知覚的年齢を推定する。しかしながら,データベース話者の年齢分布に偏りがあるため,この偏りをキャンセルする必要がある。ここでは,年齢の事前分布として一様な分布を想定し,データベースの全話者から等しい距離にある入力話者の推定年齢が一様分布となる(即ち完全な年齢不詳者となる)ようキャンセル関数を用意した。実験の結果,分布としてデータベース話者の知覚的年齢を定義した場合の有効性が示され,また,聴取実験より定義した知覚的年齢と推定年齢とには,ほぼy=xの関係があることを示すことができた。しかし,一部のデータにおいて大きなずれが生じることも実験的に明確になった。種々の検討を行なったが,話者モデリング技術(即ち,音声のスペクトル包絡の時間平均パターンで個人性をモデル化する技術)のみに基づくことの技術的限界点であると考察している。昨年度高齢者同定実験において,パワーの微小変動や,話速などの韻律的特徴の有効性が示されており,これらの有効利用を検討する必要があると考えている。また,年齢同定技術の応用可能性についても検討する必要がある。
|
Research Products
(6 results)
-
[Publications] 峯松信明, 広瀬啓吉, 関口真里子: "話者認識技術を利用した主観的高齢話者の同定とそれに基づく主観的年代の推定"情報処理学会論文誌. 43,7. 2186-2196 (2002)
-
[Publications] 広瀬啓吉, 峯松信明, 森谷高明: "単語の関連性を利用した音声認識用言語モデルのドメイン適用"情報処理学会論文誌. 43,7. 2065-2074 (2002)
-
[Publications] 成澤修一, 峯松信明, 広瀬恵吉, 藤崎博也: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43,7. 2155-2169 (2002)
-
[Publications] N.Minematsu, R.Kita, K.Hirose: "Automatic Estimation of Accentual Attribute Values of Words for Accent Sandhi Rules of Japanese Text-to-speech Conversion"Trans.IEICE. (掲載予定). (2003)
-
[Publications] N.Minematsu, M.Sekiguchi, K.Hirose: "Automatic Estimation of One's Age with His/her Speech Based upon Acoustic Modeling Techniques of Speakers"Proc.IEEE Inf.Conf.Acoustics, speech, & Signal Processing. 1. 137-140 (2002)
-
[Publications] 山内景太, 峯松信明, 広瀬啓吉: "話者認識技術を応用した知覚的年齢分布の自動推定"電子情報通信学会音声研究会. SP2002-186. 43-48 (2003)