• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

実世界劣化音声コーパスに基づく音声強調法の研究

Research Project

Project/Area Number 19300060
Research InstitutionNagoya University

Principal Investigator

武田 一哉  Nagoya University, 大学院・情報科学研究科, 教授 (20273295)

Co-Investigator(Kenkyū-buntansha) 北岡 教英  名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
宮島 千代美  名古屋大学, 大学院・情報科学研究科, 助教 (90335092)
山田 武志  筑波大学, 大学院・システム情報工学研究科, 准教授 (20312829)
西浦 敬信  立命館大学, 情報理工学部, 准教授 (70343275)
田村 哲嗣  岐阜大学, 工学部, 助教 (10402215)
Keywords雑音下音声認識 / 乗法性雑音 / 音声区間検出 / ロンバード効果 / Audio-visual音声認識 / 音声認識評価基盤
Research Abstract

これまで加法性雑音下音声認識評価基盤(CENSREC-1, 2, 3)を多く収集したが、乗法性雑音下音声認識評価用のデータベースの評価基盤CENSREC-4を作成し、国際会議でも一般公開に至った。本DBには8種類の実環境で収集した残響(=乗法性雑音)をクリーン音声に畳み込んでシミュレートされた残響下音声、およびそのうち4環境では実際に人間がその場で発声した実音声も収録した。また、それらを効率的に除去して音声認識率を向上させる方法についても研究を行った。
また、雑音下で音声が変形するロンバード効果についても分析し、3種類の性質の異なる雑音下においてさまざまなSNRのもとでのロンバード音声収録を行った。そして、第2フォルマントへの影響が大きいなどの独特の性質を見出した。
さらに、雑音下で音声が使えなくても認識可能な映像も同期収録したデータベースの構築を進めている。これらも本研究期間中にCENSREC-AVとして公開予定である。
また、雑音や残響の音声認識への影響を分析し、それらを測る評価指標の改良を引き続き行っている。これによってDBの雑音の被服率や、事前の雑音の性質把握などを可能にできるようなりつつある。を考案し、事前に音声認識への影響を推測する方法の研究を行い、効果を得た。
これとは別に、音楽などの非定常性が非常に高い雑音に対する分析および抑圧方法も検討を開始し、一定の効果を得た。今後これらの性質を明らかにしてより一般的なDB構築や手法考案に向けての研究を開始したといえる。

  • Research Products

    (19 results)

All 2009 2008

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (18 results)

  • [Journal Article] CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments2009

    • Author(s)
      N. Kitaoka, T. Yamada, S. Tsuge, C. Miyajima, K. Yamamoto, T. Nishiura, M. Nakayama, Y. Denda, M. Fujimoto, T. Takiguchi, S. Tamura, S. Matsuda, T. Ogawa, S. Kuroiwa, K. Takeda, S. Nakamura
    • Journal Title

      Acoustical Science and Technology (未定掲載決定)

    • Peer Reviewed
  • [Presentation] ETSI標準雑音抑圧フロントエンドのための雑音推定法の検討2009

    • Author(s)
      金正賢, 山田武志, 北脇信彦
    • Organizer
      電子情報通信学会2009年総合大会
    • Place of Presentation
      愛媛大学
    • Year and Date
      2009-03-20
  • [Presentation] 定在波を利用した距離推定とマイクロホンアレーに基づく話者位置推定の検討2009

    • Author(s)
      中山雅人, 定野一也, 篠原寿広, 中迫昇
    • Organizer
      日本音響学会2009年春季研究発表会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2009-03-19
  • [Presentation] 確率モデルに基づく単一チャネル音源分離を用いた背景音楽抑圧2009

    • Author(s)
      伊藤弘章, 西野隆典, 北岡教英, 武田一哉
    • Organizer
      日本音響学会2009年春季研究発表会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2009-03-17
  • [Presentation] 騒音下音声認識システム評価におけるロンバード効果の影響の検証-ロンバード発声適応モデルを用いた評価-2009

    • Author(s)
      小川哲司, 小林哲則
    • Organizer
      日本音響学会2009年春季研究発表会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2009-03-17
  • [Presentation] 雑音下音声認識の性能推定に用いるタスクの複雑さを表す尺度の検討2009

    • Author(s)
      中島智弘, 山田武志, 北脇信彦
    • Organizer
      日本音響学会2009年春季研究発表会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2009-03-17
  • [Presentation] 音声認識の頑健性2009

    • Author(s)
      北岡教英, 大淵康成, 滝口哲也, 中村哲, 藤本雅清
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      新潟県・湯沢東映ホテル
    • Year and Date
      2009-02-06
  • [Presentation] ペイジアンネットワークを用いた単一チャネル信号による背景音楽の抑圧2008

    • Author(s)
      伊藤弘章, 西野隆典, 北岡教英, 武田一哉
    • Organizer
      音声言語情報処理研究会(音声言語シンポジウム)
    • Place of Presentation
      早稲田大学
    • Year and Date
      2008-12-09
  • [Presentation] CENSREC-AV : Evaluation frameworks for audio-visual speech recognition2008

    • Author(s)
      S. Tamura, C. Miyajima, N. Kitaoka, S. Hayamizu, K. Takeda
    • Organizer
      International Conference on Auditory and Visualspeech Processing (AVSP 2008)
    • Place of Presentation
      Tangalooma, Australia
    • Year and Date
      2008-09-27
  • [Presentation] CENSREC-4 : Development of evaluation framework for distant-talking speech recognition under reverberant environments2008

    • Author(s)
      M. Nakayama, T. Nishiura, Y. Denda, N. Kitaoka, K. Yamamoto, T. Yamada, S. Tsuge, C. Miyajima, M. Fujimoto, T. Takiguchi, S. Tamura, T. Ogawa, S. Matsuda, S. Kuroiwa, K. Takeda, S. Nakamura
    • Organizer
      International Conference on Spoken Language Processing (INTERSPEECH 2008)
    • Place of Presentation
      Brisbane, Australia
    • Year and Date
      2008-09-24
  • [Presentation] Blind dereverberation based on CMN and spectral subtraction by multi-channel LMS algorithm2008

    • Author(s)
      L. Wang, S. Nakagawa, N. Kitaoka
    • Organizer
      International Conference on Spoken Language Processing (INTERSPEECH 2008)
    • Place of Presentation
      Brisbane, Australia
    • Year and Date
      2008-09-24
  • [Presentation] 符号化された既知の楽曲が重畳した音声の雑音抑圧手法に関する検討2008

    • Author(s)
      伊藤弘章, 西野隆典, 北岡教英, 武田一哉
    • Organizer
      日本音響学会2008年秋季研究発表会
    • Place of Presentation
      九州大学
    • Year and Date
      2008-09-12
  • [Presentation] マルチチャンネルLMSアルゴリズムによるスペクトルサブトラクションとCMNに基づくブラインド残響除去2008

    • Author(s)
      王龍標, 中川聖一, 北岡教英, 甲斐充彦
    • Organizer
      日本音響学会2008年秋季研究発表会
    • Place of Presentation
      九州大学
    • Year and Date
      2008-09-12
  • [Presentation] 文法的複雑さを考慮した雑音下音声認識の性能推定の検討2008

    • Author(s)
      中島智弘, 山田武志, 北脇信彦
    • Organizer
      日本音響学会2008年秋季研究発表会
    • Place of Presentation
      九州大学
    • Year and Date
      2008-09-12
  • [Presentation] ペイジアンネットワークを用いたバイナリマスキングに基づく音源分離2008

    • Author(s)
      伊藤弘章, 大石康智, 宮島千代美, 北岡教英, 武田一哉
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      盛岡市・ホテル紫苑
    • Year and Date
      2008-07-19
  • [Presentation] 認識対象語彙数を考慮した雑音下孤立単語認識の性能推定2008

    • Author(s)
      中島智弘, 山田武志, 北脇信彦
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      盛岡市・ホテル紫苑
    • Year and Date
      2008-07-19
  • [Presentation] Multi-modal real-world driving data collection, transcription, and integration using Bayesian network2008

    • Author(s)
      L. Malta, P. Angkititrakul, C. Miyajima, K. Takeda
    • Organizer
      Intelligent Vehicles Symposium (IV 2008)
    • Place of Presentation
      Marrakech, Morocco
    • Year and Date
      2008-06-04
  • [Presentation] In-car speech data collection along with various multimodal signals2008

    • Author(s)
      A. Ozaki, S. Hara, T. Kusakawa, C. Miyajima, T. Nishino, N. Kitaoka, K. Itou, K. Takeda
    • Organizer
      The 6th Language Resources and Evaluation Conference (LREC 2008)
    • Place of Presentation
      Marrakech, Morocco
    • Year and Date
      2008-05-30
  • [Presentation] Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments ; Newest Part of the CENSREC Series2008

    • Author(s)
      T. Nishiura, M. Nakayama, Y. Denda, N. Kitaoka, K. Yamamoto, T. Yamada, S. Tsuge, C. Miyajima, M. Fujimoto, T. Takiguchi, S. Tamura, S. Kuroiwa, K. Takeda, S. Nakamura
    • Organizer
      The 6th Edition of Language Resources and Evaluation Conference (LREC 2008)
    • Place of Presentation
      Marrakech, Morocco
    • Year and Date
      2008-05-29

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi