非示量性情報理論に基づく音声言語処理

研究課題

研究課題/領域番号	24650079
研究種目	挑戦的萌芽研究
配分区分	基金
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
研究期間 (年度)	2012-04-01 – 2015-03-31
研究課題ステータス	完了 (2014年度)
配分額 *注記	3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2014年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2013年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2012年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	音声情報処理 / 映像情報処理 / 画像情報処理
研究成果の概要	音声言語処理に対し、従来の示量性統計理論を拡張した非示量性統計理論を適用する方法論を開発した。まず、音声認識のための特徴抽出について、周囲雑音・回線の違いから生じる変動に対し頑健な、q-log spectral mean subtraction (q-LMSN)手法を提案し、従来のCMNを用いた手法に比べ優位に性能が高いことを示した。また、音声認識・映像意味インデクシングにおいて、HMMやGMMの出力分布として、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、その効果を確認した。

報告書

(4件)

研究成果
(6件)

すべて 2014 2013 2012

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] q-Gaussian Mixture Models for Image and Video Semantic Indexing2013
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  Journal of Visual Communication and Image Representation
  
  巻: 24 号: 8 ページ: 1450-1457
- DOI
  10.1016/j.jvcir.2013.10.005
- NAID
  120006582288
- 関連する報告書
  2013 実施状況報告書
[雑誌論文] Feature normalization based on non-extensive statistics for speech recognition2013
- 著者名/発表者名
  Hilman F. Pardede, Koji Iwano, Koichi Shinodaa
- 雑誌名
  
  Speech Commuication
  
  巻: 55 ページ: 587-599
- NAID
  120006582242
- 関連する報告書
  2012 実施状況報告書
- 査読あり
[学会発表] TokyoTech-Waseda at TRECVID 20142014
- 著者名/発表者名
  Nakamasa Inoue, Zhuolin Liang, Mengxi Lin, Tran Hai Dang, Koichi Shinoda, Zhang Xuefeng, Kazuya Ueki
- 学会等名
  Proc. TRECVID workshop
- 発表場所
  セントラルフロリダ大学(米国)
- 年月日
  2014-11-10 – 2014-11-12
- 関連する報告書
  2014 実績報告書
[学会発表] Robust Video Information Retrieval using Speech Technologies2014
- 著者名/発表者名
  Koichi Shinoda
- 学会等名
  APSIPA distinguished lecture
- 発表場所
  カーネギメロン大学(米国)
- 年月日
  2014-06-20
- 関連する報告書
  2014 実績報告書
- 招待講演
[学会発表] 音声認識のためのq ガウス分布を用いた音響モデル2013
- 著者名/発表者名
  周澤西, 岩野公司, 篠田浩一
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学, 八王子, 東京
- 関連する報告書
  2012 実施状況報告書
[学会発表] Q-Gaussian based spectral subtraction for robust speech recognition2012
- 著者名/発表者名
  Hilman F. Pardede, Koichi Shinoda and Koji Iwano
- 学会等名
  INTERSPEECH2013
- 発表場所
  Portland, OR, U.S.A
- 関連する報告書
  2012 実施状況報告書

非示量性情報理論に基づく音声言語処理

研究代表者

篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)

3,900千円 (直接経費: 3,000千円、間接経費: 900千円)

報告書

研究成果

[雑誌論文] q-Gaussian Mixture Models for Image and Video Semantic Indexing2013

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] Feature normalization based on non-extensive statistics for speech recognition2013

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] TokyoTech-Waseda at TRECVID 20142014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Robust Video Information Retrieval using Speech Technologies2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 音声認識のためのq ガウス分布を用いた音響モデル2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Q-Gaussian based spectral subtraction for robust speech recognition2012

著者名/発表者名

学会等名

発表場所

関連する報告書

篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)