• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

音声ドキュメントの高精度認識と整形・要約および高速・高精度音声検索に関する研究

Research Project

Project/Area Number 22300059
Research InstitutionToyohashi University of Technology

Principal Investigator

中川 聖一  豊橋技術科学大学, 大学院・工学研究科, 教授 (20115893)

Co-Investigator(Kenkyū-buntansha) 秋葉 友良  豊橋技術科学大学, 大学院・工学研究科, 准教授 (00356346)
山本 一公  豊橋技術科学大学, 大学院・工学研究科, 助教 (40324230)
土屋 雅稔  豊橋技術科学大学, 情報メディア基盤センター, 助教 (70378256)
Keywords音声認識 / 音声整形 / 音声要約 / HMM / トピック依存言語モデル / nグラムインデックス / 音声検索 / 未知語
Research Abstract

音声情報の有効活用のためには、高精度な音声認識法、認識結果を読み易くするための音声整形法、音声要約法、大量の音声ドキュメントからの検索キーワードの高速検索法の技術開発が必要である。
本年度は、現在の世界的標準となっている音声認識モデルであるHMMを包含する隠れニューラル確率場モデルによる音声認識技術を開発し、HMMと同等以上の性能を得る見込みを得た。音声認識の言語モデルに関しては、音声認識対象単語の直前の数十単語のコンテキストを用いてトピックを同定し、トピックに依存した言語モデルによる音声認識法を開発し、パープレキシティの減少、音声認識の向上を達成した。また、認識辞書に登録されていない未知語に対する言語モデルの構成法を提案し、有効性を示した。
音声ドキュメントの高速検索法として、音声認識の置換誤り、挿入誤り、脱落誤りに頑健な音節のnグラムインデックスによる方法を提案し、その有効性を示した。検索精度の向上を図るために、音節認識結果のmベストを利用する方法を提案した。基本的な手法である音節列向上の連続DPマッチング法と比較し、約200倍の検索速度で同等以上の検索精度を得られることを示した。本手法は、音声認識誤りや音声認識用辞書に登録されていない未知語に対しても頑健に動作する。

  • Research Products

    (42 results)

All 2011 2010 Other

All Journal Article (6 results) (of which Peer Reviewed: 6 results) Presentation (31 results) Book (4 results) Remarks (1 results)

  • [Journal Article] Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment2011

    • Author(s)
      A.Y.Nakano
    • Journal Title

      Acoustic Science and Technology

      Volume: 31,5 Pages: 309-319

    • Peer Reviewed
  • [Journal Article] A spoken dialog system for spontaneous conversations considering response timing and response type2011

    • Author(s)
      R.Nishimura
    • Journal Title

      EEE:IEEJ

      Volume: 6,1 Pages: S17-S26

    • Peer Reviewed
  • [Journal Article] Distance talking speech recognition based on spectral subtraction by multi-channel LMS algorithm2011

    • Author(s)
      L.Wang
    • Journal Title

      IEICE, Trans.Information & Systems

      Volume: E-94,2 Pages: 659-667

    • Peer Reviewed
  • [Journal Article] Topic-dependent language model with voting on noun history2010

    • Author(s)
      W.Naptali
    • Journal Title

      ACM Trans.TALIP

      Volume: 19,2 Pages: 1-31

    • Peer Reviewed
  • [Journal Article] Speaker recognition by combining MFCC and phase information in noisy conditions2010

    • Author(s)
      L.Wang
    • Journal Title

      IEICE Trans.Inf.& syst.

      Volume: E93-D,9 Pages: 2397-2406

    • Peer Reviewed
  • [Journal Article] Distant speech recognition using a microphone array network2010

    • Author(s)
      A.Y.Nakano
    • Journal Title

      IEICE Trans.Inf.& Syst.

      Volume: E93-D,9 Pages: 2451-2462

    • Peer Reviewed
  • [Presentation] NMFとVQ手法による音楽重量音声の音楽除去と音声認識2011

    • Author(s)
      仲野翔一
    • Organizer
      日本音響学会春季講演
    • Place of Presentation
      早稲田大学
    • Year and Date
      2011-03-10
  • [Presentation] 識別モデルにおける音素素性の有効性に関する検討2011

    • Author(s)
      小林彰夫
    • Organizer
      日本音響学会春季講演
    • Place of Presentation
      早稲田大学
    • Year and Date
      2011-03-10
  • [Presentation] Class-based n-gram language model for a out-of-vocabulary words2011

    • Author(s)
      W.Naptali
    • Organizer
      日本音響学会春季講演
    • Place of Presentation
      早稲田大学
    • Year and Date
      2011-03-10
  • [Presentation] 国際会議英語発表における発音評価のための新しい特徴量の検討2011

    • Author(s)
      木菱裕志
    • Organizer
      日本音響学会春季講演
    • Place of Presentation
      早稲田大学
    • Year and Date
      2011-03-10
  • [Presentation] 有音声部の位相情報を用いた話者認識の改善2011

    • Author(s)
      嶋田晃夫
    • Organizer
      日本音響学会春季講演
    • Place of Presentation
      早稲田大学
    • Year and Date
      2011-03-10
  • [Presentation] Automatic detection of edited parts in inexact transcribed corpora based on alignment between edited transcription and corresponding utterance2011

    • Author(s)
      K.Ohta
    • Organizer
      Proc.11th Wseas International Conf.MUSP-11
    • Place of Presentation
      ベニス(イタリア)
    • Year and Date
      2011-03-08
  • [Presentation] Multi class-based n-gram language model for new words using Web data2011

    • Author(s)
      W.Naptali
    • Organizer
      Proc.11th Wseas International Conf.MUSP-11
    • Place of Presentation
      ベニス(イタリア)
    • Year and Date
      2011-03-08
  • [Presentation] Large vocabulary speech recognition system : SPOJUS++2011

    • Author(s)
      K.Fujii
    • Organizer
      Proc.11th Wseas International Conf.MUSP-11
    • Place of Presentation
      ベニス(イタリア)
    • Year and Date
      2011-03-08
  • [Presentation] 大規模コーパスを用いた固有表現抽出手法の検討2011

    • Author(s)
      南和江
    • Organizer
      言語処理学会,第17回年次大会
    • Place of Presentation
      豊橋技術科学大学
    • Year and Date
      2011-03-08
  • [Presentation] Modeling out-of-vocabulary words using multi class-based n-gram language model for automatic speech recognition2011

    • Author(s)
      W.Naptali
    • Organizer
      第5回音声ドキュメント処理ワークショップ
    • Place of Presentation
      豊橋技術科学大学
    • Year and Date
      2011-03-07
  • [Presentation] 指節n-gramインデックスによる未知語の音声検索法の改善2011

    • Author(s)
      岩見圭祐
    • Organizer
      第5回音声ドキュメント処理ワークショップ
    • Place of Presentation
      豊橋技術科学大学
    • Year and Date
      2011-03-07
  • [Presentation] 整形された会議録とその原音声のアライメントに基づく整形箇所の自動検出2011

    • Author(s)
      太田健吾
    • Organizer
      第5回音声ドキュメント処理ワークショップ
    • Place of Presentation
      豊橋技術科学大学
    • Year and Date
      2011-03-07
  • [Presentation] Hidden Conditional Neural Fieldを用いた音声認識における目的関数と階層的音素事後確率特徴量の検討2011

    • Author(s)
      藤井康寿
    • Organizer
      情報処理学会,音声言語情報処理
    • Place of Presentation
      福山市
    • Year and Date
      2011-02-05
  • [Presentation] NTC1R-9 Spoken Doc.「音声検索語検出と音声ドキュメント検索の評価枠組の設計」2010

    • Author(s)
      秋葉友良
    • Organizer
      情報処理学会,音声言語情報処理
    • Place of Presentation
      国立オリンピック記念青少年総合センター
    • Year and Date
      2010-12-21
  • [Presentation] 複数エージェントを扱う音声対話システムの構築と評価2010

    • Author(s)
      西村良太
    • Organizer
      情報処理学会,音声言語情報処理
    • Place of Presentation
      国立オリンピック記念青少年総合センター
    • Year and Date
      2010-12-20
  • [Presentation] Topic dependent class based language model evaluation on automatic speech recogniton2010

    • Author(s)
      W.Naptali
    • Organizer
      Proc.IEEE Workshop on SLT
    • Place of Presentation
      バークレイ(アメリカ)
    • Year and Date
      2010-12-15
  • [Presentation] Out of vocabulary term detection by N-gram array with distance from continuous syllable recognition results2010

    • Author(s)
      K.Iwami
    • Organizer
      IEEE Workshop on SLT
    • Place of Presentation
      バークレイ(アメリカ)
    • Year and Date
      2010-12-14
  • [Presentation] Hidden conditional neural fieldsを用いた音声認識の検討2010

    • Author(s)
      藤井康寿
    • Organizer
      情報処理学会,音声言語情報処理研究会
    • Place of Presentation
      早稲田大学
    • Year and Date
      2010-10-29
  • [Presentation] 距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法2010

    • Author(s)
      岩見圭祐
    • Organizer
      情報処理学会,音声言語情報処理
    • Place of Presentation
      早稲田大学
    • Year and Date
      2010-10-29
  • [Presentation] Improving the readability of class lecture ASR results using a confusion network2010

    • Author(s)
      Y.Fujii
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-30
  • [Presentation] Integration of a cache-based model and topic dependent class model with soft clustering and soft voting2010

    • Author(s)
      W.Naptali
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-29
  • [Presentation] Constructing Japanese test collections for spoken terms detection2010

    • Author(s)
      Y.Itoh
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-28
  • [Presentation] Speech recognition using long-term phase information2010

    • Author(s)
      K.Yamamoto
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-28
  • [Presentation] Lecture subtopic retrieval by retrieval key word spotting using subordinate concept2010

    • Author(s)
      N.Kanadera
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-28
  • [Presentation] Automatic evaluation of English pronunciation by Japanese speakers using various acoustic features and pattern recognition techniques2010

    • Author(s)
      S.Nakagawa
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      幕張(日本)
    • Year and Date
      2010-09-27
  • [Presentation] A maximum likelihood approach to suppress the reverberation effect using a single microphone2010

    • Author(s)
      A.Nakano
    • Organizer
      日本音響学会秋季講演
    • Place of Presentation
      関西大学
    • Year and Date
      2010-09-14
  • [Presentation] ラベルなしデータを用いた識別的言語モデルの検討2010

    • Author(s)
      小林彰夫
    • Organizer
      日本音響学会秋季講演
    • Place of Presentation
      関西大学
    • Year and Date
      2010-09-14
  • [Presentation] Topic dependent class language model in Japanese automatic speech recognition2010

    • Author(s)
      W.Naptali
    • Organizer
      日本音響学会秋季講演
    • Place of Presentation
      関西大学
    • Year and Date
      2010-09-14
  • [Presentation] 長時間分析に基づく位相情報を用いた音声認識の検討2010

    • Author(s)
      山本一公
    • Organizer
      電子情報通信学会,音声研究会
    • Place of Presentation
      仙台市
    • Year and Date
      2010-07-23
  • [Presentation] Evaluation of privacy protection techniques for speech signals2010

    • Author(s)
      K.Yamamoto
    • Organizer
      Proc.Int.Conf.Information Processing and Management of Uncentainty in Knowledge-Based Systems, IPMU-2010
    • Place of Presentation
      ドルトモント(ドイツ)
    • Year and Date
      2010-06-29
  • [Presentation] Spoken term detectionのためのテストコレクション構築とベースライン評価2010

    • Author(s)
      西崎博光
    • Organizer
      情報処理学会,音声言語情報処理研究会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2010-05-28
  • [Book] 4-1音声対話/音声ドキュメント処理2011

    • Author(s)
      中川聖一
    • Total Pages
      2-4
    • Publisher
      電子情報通信学会,総合版ハンドブック「知識ベース」,2群7編4章「音声認識と合成」
  • [Book] 情報理論-基礎から応用まで-2010

    • Author(s)
      中川聖一
    • Total Pages
      242
    • Publisher
      近代科学社
  • [Book] 「確率と確率過程」武田一哉・編著2010

    • Author(s)
      中川聖一
    • Total Pages
      10章,11章,12章
    • Publisher
      オーム社
  • [Book] 〔SLP〕音声認識2010

    • Author(s)
      中川野一
    • Total Pages
      331-333
    • Publisher
      情報処理学会,50年のあゆみ
  • [Remarks]

    • URL

      http://www.slp.cs.tut.ac.jp

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi