2013年度前半~後半 実施計画の通り,本課題の最終目標である悲鳴検出システムの実現に際し,必要不可欠である大規模な悲鳴データベースの構築を行った.悲鳴とは危機を感じた際にそれを外部に伝達するために発せられる音声であるため,本来はそのような危機的場面で(あるいはそのような場面を想定して)録音することが望ましいが,悲鳴音声の正確な解析を実現するためには,背景雑音や残響などの外的要因が極力含まれない形(例えばスタジオなど)で録音する必要があった.しかし,悲鳴音声の提供者にスタジオ内で危機的場面を実際に体験させることは困難である.そこで我々は,危機的場面を再現しそこで女性が悲鳴を発している動画を作成した.再現した危機的場面は,個室で女性が何者かに襲われるところであり,動画内では実際に悲鳴を発している場面も含まれている.上記動画を映像のみで再生し,発話者にそのような場面に遭遇した状況を想像させ,発話者なりの悲鳴を1話者当たり30分間で可能な限り発してもらった.映像のみとした理由は,聞いた悲鳴を模倣し,悲鳴音声に含まれる発話様式の個人性が失われるのを防ぐためである.なお,本データベースへの悲鳴音声提供者は20代~50代の女性で各年代12~13名とし年齢層による偏りがないように配慮し,計50名から提供を受けた. 2013年度後半 実施計画の通り,悲鳴音声の声道特性の解析を進めており,さらに,悲鳴音声の基本周波数の解析にも取り組んでいる.声道特性は音声認識でも一般的に用いられているMel-frequency Cepstral Coefficientsを用い,話者内変動性や話者間変動性について調査しており,2014年度も引き続き行う.
|