2009 Fiscal Year Annual Research Report
Project/Area Number |
19700163
|
Research Institution | Nagoya University |
Principal Investigator |
宮島 千代美 Nagoya University, 大学院・情報科学研究科, 助教 (90335092)
|
Keywords | バイモーダル音声認識 / 雑音下音声認識 / 音声認識性能評価 / データベース / 近赤外映像 / 自動車内雑音 |
Research Abstract |
昨年度までに収録・整備した音声・映像データに対して雑音を重畳し,特徴抽出と認識性能評価基準となるベースラインの認識実験を進め,データベース配布の準備を行った.音声の雑音としては,ドライバの襟元に装着した無指向性マイクで収録した市街地走行中の車内雑音を室内収録音声に重畳し,画像の雑音としては,車載カメラで撮影した映像から算出したガンマ値の変動を元に,室内で撮影したカラーおよび近赤外映像の各画像フレームに対してガンマ変換を行うことで雑音環境を模擬した.ベースラインの音声特徴量は,メルフィルタバンクケプストラム係数とその動的特徴量,画像特徴量は,口唇画像の約1000次元のベクトルから抽出した寄与率約85%の主成分得点とその動的特徴量とした.音声と映像の特徴量はマルチストリームの隠れマルコフモデルで初期統合に基づいてモデル化し,ストリーム重みを変化させ,最も認識性能が高くなるストリーム重みを選択した.データベースの利用者は,このベースラインの認識率と比較することで,提案するバイモーダル音声認識の特徴抽出手法や認識手法の性能を評価できる仕組みとなっている.雑音の重畳や,音声・画像の特徴抽出のプログラム,および隠れマルコフモデルツールキットに準じた認識評価用スクリプトを作成し,マニュアルや評価用バイモーダルデータと併せて,DVDメディアにて配布する準備が整った.これらは,学会等を通じてさまざまな研究機関に配布される予定である.
|
-
[Journal Article] CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments2009
Author(s)
N.Kitaoka, T.Yamada, S.Tsuge, C.Miyajima, K.Yamamoto, T.Nishiura, M.Nakayama, Y.Denda, M.Fujimoto, T.Takiguchi, S.Tamura, S.Matsuda, T.Ogawa, S.Kuroiwa, K.Takeda, S.Nakamura
-
Journal Title
Acoustical Science and Technology 30
Pages: 363-371
Peer Reviewed
-
[Presentation] CENSREC-1-AV:マルチモーダル音声認識コーパスの構築2010
Author(s)
田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹小川哲司, 黒岩眞吾, 中村哲
Organizer
2010年日本音響学会春季研究発表会
Place of Presentation
電気通信大学(東京都)
Year and Date
2010-03-08
-
-
-