2007 Fiscal Year Annual Research Report
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
Project/Area Number |
19024023
|
Research Institution | The University of Tokyo |
Principal Investigator |
峯松 信明 The University of Tokyo, 大学院・新領域創成科学研究科, 准教授 (90273333)
|
Keywords | 構造不変の定理 / 音声の構造的表象 / 分布間距離 / 次元分割 / 識別学習 / 音声認識 / 発音教育支援 |
Research Abstract |
音声には年齢や性別などの非言語的な要因によって不可避的に歪みが混入する。その結果,大人と子供では音声の物理特性は大きく異なる。我々は物理的に異なる音ストリームに例えば「おはよう」という同一の情報を感覚する。従来の音声認識系では,これらの異なる音ストリームに内在する不変な情報を直接的に表象することは行なわず,ただただ音を集めて統計的にモデル化する試みが行なわれて来た。本研究では,構造不変の定理と呼ぶ数学的定理に基づく,話者やマイクに不変な音声表象を提案しており,これに基づいた音声認識系及びそのアプリケーションを構築することが目的である。本年は,パラメータの次元分割や,識別学習に基づく効率的な次元圧縮などについて検討し,また,アプリケーションという側面では発音学習応用において非常に実益性の高い成果を挙げることができた。パラメータ次元分割は,構造不変の定理が呈する「強すぎる不変性」問題を解くために導入された技術であり,制約付きでこの定理を利用する一手段を提供している。また,識別学習による次元削減はパラメータ数の増加に伴う「次元の呪い」問題を解くために導入された技術である。発音教育アプリケーションでは,学習者と教師の間の性別や年齢といった違いを回避することが可能となるため,教師を選ぶ発音教育支援,発音の様態のみに基づく(話者/性別に影響されない)学習者分類,更には,学習者の意欲向上に効果的なインタフェースの構築などを行なった。
|
Research Products
(15 results)