研究概要 |
話者不変の音声表象である音声の構造的表象は,音イベント群の個々の要素を絶対的に表象するのではなく,個々のイベント間のコントラストをf-divergenceで知られる変換不変量を用いて表象する新しい音声表象方式である。これを用いると,音声を全体的,包括的に表象することとなる。従来申請者らは,この構造表象を用いた音声認識を検討してきた。話者によって表象が変化しない点を利用し,非常に小数の話者のサンプルを用いて不特定話者音声認識の可能性について検討してきた。その結果,非常に限られたタスクではあるが,数千人の話者より構築された音響的実体を用いる音響モデルよりも,遥かに話者性に対する頑健性が高い音響モデルが構築された。 本研究では,その逆のプロセス,即ち,構造を入力として,それを音声に変換するプロセスの計算機上での実装について検討した。音声の構造的表象を発達心理学的に考えると,これは「語ゲシュタルト」と呼ばれるものに相当する。幼児の言語獲得は音声模倣という過程を通して行なわれるが,彼らは九官鳥のように音真似をする訳では無い。父親の発声にも母親の発声にも(言語的内容が等しければ)共通して存在する音響パターンを自分の口を用いて生成する訳である。この話者不変の共通パターンを変換不変量のf-divergenceを通して推定し,推定された構造表象に対して,これを音の実体に戻す操作を計算機上に実装した。 本来であれば,話者不変量である構造表象は,話者の身体特性(喉の大きさなど)を捨象した物理表象であるため,この構造に対して,発声者の身体的特性を提供することで音として実現化される枠組みが望まれる。しかしここでは,直接調音パラメータを用いることはせず,該当話者の幾つかの音を初期条件として与え,構造表象を制約条件として用いることで音を生成する方法をとった。初期検討として,初期条件及び制約条件を満たす解候補を,ケプストラム空間(音響空間)からgreedyに探索し音を生成することを試みた。その結果,明瞭性が高いとは言えないまでも,初期条件を提供した話者性を保持しつつ,構造表象によって指定された言語内容を生成することが可能であることを確認できた。
|