2014 Fiscal Year Annual Research Report

非示量性情報理論に基づく音声言語処理

Research Project

Project/Area Number	24650079
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	音声情報処理 / 画像情報処理
Outline of Annual Research Achievements	音声言語処理に対し、従来の資料性統計理論を拡張した非示量性統計理論を適用する方法論を開発する。非示量性理論は、示量性理論があてはまらないことが多い、長時間相関がある時系列データなど複雑な事象のモデル化に有効であることが知られている。ここではTsallisの提案する非示量性理論の枠組みを採用する。初年度に、音声認識のための特徴抽出について、周囲雑音・回線などの違いから生じる変動に対し頑健な手法として、q-log spectral mean subtraction (q-LMSN)手法、及び、q-Gauss混合分布を用いる手法を開発し、効果を確認した。昨年度には、画像における一般物体認識において、q-Gauss混合分布を用いた手法を開発し、有意に性能が高いことを示した。これらの結果を受け、最終年度である今年度は、映像におけるイベント検出のタスクのための、音声と画像を統合した枠組みへのq-Gaussian混合分布を適用を試みた。結果は残念ながらほとんど性能向上には寄与しなかった。モード間の様々な組み合わせに対して最適なqの値を発見するのが困難であったことが原因と考えられる。

Research Products
(2 results)

All 2014

All Presentation (2 results) (of which Invited: 1 results)

[Presentation] TokyoTech-Waseda at TRECVID 20142014
- Author(s)
  Nakamasa Inoue, Zhuolin Liang, Mengxi Lin, Tran Hai Dang, Koichi Shinoda, Zhang Xuefeng, Kazuya Ueki
- Organizer
  Proc. TRECVID workshop
- Place of Presentation
  セントラルフロリダ大学(米国)
- Year and Date
  2014-11-10 – 2014-11-12
[Presentation] Robust Video Information Retrieval using Speech Technologies2014
- Author(s)
  Koichi Shinoda
- Organizer
  APSIPA distinguished lecture
- Place of Presentation
  カーネギメロン大学(米国)
- Year and Date
  2014-06-20 – 2014-06-20
- Invited

2014 Fiscal Year Annual Research Report

非示量性情報理論に基づく音声言語処理

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)

Research Products

[Presentation] TokyoTech-Waseda at TRECVID 20142014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Robust Video Information Retrieval using Speech Technologies2014

Author(s)

Organizer

Place of Presentation

Year and Date

篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)