音声言語処理に対し、従来の資料性統計理論を拡張した非示量性統計理論を適用する方法論を開発する。非示量性理論は、示量性理論があてはまらないことが多い、長時間相関がある時系列データなど複雑な事象のモデル化に有効であることが知られている。ここではTsallisの提案する非示量性理論の枠組みを採用する。初年度に、音声認識のための特徴抽出について、周囲雑音・回線などの違いから生じる変動に対し頑健な手法として、q-log spectral mean subtraction (q-LMSN)手法、及び、q-Gauss混合分布を用いる手法を開発し、効果を確認した。昨年度には、画像における一般物体認識において、q-Gauss混合分布を用いた手法を開発し、有意に性能が高いことを示した。これらの結果を受け、最終年度である今年度は、映像におけるイベント検出のタスクのための、音声と画像を統合した枠組みへのq-Gaussian混合分布を適用を試みた。結果は残念ながらほとんど性能向上には寄与しなかった。モード間の様々な組み合わせに対して最適なqの値を発見するのが困難であったことが原因と考えられる。
|