• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実績報告書

音声ドキュメントの高精度認識と整形・要約および高速・高精度音声検索に関する研究

研究課題

研究課題/領域番号 22300059
研究機関豊橋技術科学大学

研究代表者

中川 聖一  豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)

研究分担者 秋葉 友良  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
土屋 雅稔  豊橋技術科学大学, 学内共同利用施設等(情報メディア基盤センター), 助教 (70378256)
研究期間 (年度) 2010-04-01 – 2013-03-31
キーワード音節トライグラム / nグラムインデックス / 音声検索語検索 / 音声ドキュメント / 音声認識 / 音声検索 / 音声入力
研究概要

H24年度は、音声ドキュメントからの検索語の高速・高精度検索について研究を行った。まず、従来から我々が行っていた音節のトライグラムのインデックス化を、トライグラム、バイグラム、ユニグラムを併用する方法に改善した。これは、例えば、ABCDEの5音節からなる検索語に対して、従来法では、ABCとCDEの二つのトライグラムで検索していたが、この場合、音節Cが、2重に検索されており、厳密な5音節としての検索距離が求められていなかった。そこで、今回は、ABCのトライグラムとDEのバイグラムの検索結果を統合する手法に改善した。また、従来は、検索結果の検索語の長さの相違による正規化係数として、分割したトライグラム数で正規化していたのを、音節数に変更した。以上の改善・変更により、検索精度が向上した。例えば、従来44時間の講演音声ドキュメントに対して、未知語の検索に対して、F値は、従来法で0.611であったのが0.681まで向上した。また、ベースラインである、音節列同士のDPマッチングによる方法では、0.591であり、ベースラインを大きく上回ることが出来た。ただし、これにより、検索時間が遅くなったが、依然DPマッチング法よりは高速で、17倍である。
次に、検索語を音声入力で行う方法を検討した。まず、検索語の音声を音声認識で音節列に変換する。その第一候補の音節列を、従来のタイプ入力による検索語と見做して、検索を行った。提案法は、今回の検索語の音節の認識率が検索対象の音声ドキュメントの音節認識よりも悪く、十分な検索性能を得られていないが、ベースラインのDPマッチングによる性能を上回っている。これにより、検索語の音声入力による問題点(脱落誤りの影響が大きい。第一候補だけでは、音節認識の性能が低く、検索性能も低い)が明らかになった。

現在までの達成度 (区分)
理由

24年度が最終年度であるため、記入しない。

今後の研究の推進方策

24年度が最終年度であるため、記入しない。

  • 研究成果

    (17件)

すべて 2013 2012 その他

すべて 雑誌論文 (11件) (うち査読あり 11件) 学会発表 (5件) (うち招待講演 1件) 図書 (1件)

  • [雑誌論文] 音声中の検索語検出のためのテストコレクションの構築と分析2013

    • 著者名/発表者名
      伊藤慶明,西崎博光,中川聖一,秋葉友良,河原達也,胡新輝,南篠浩光,松井知子,山下洋一,相川清明
    • 雑誌名

      情報処理学会論文誌

      巻: Vol.54, No.2 ページ: 471-483

    • 査読あり
  • [雑誌論文] 音声検索語検出を前処理に用いた未知語や認識誤りに頑健な音声ドキュメント検索2013

    • 著者名/発表者名
      瀧上智子, 秋葉 友良
    • 雑誌名

      情報処理学会論文誌

      巻: Vol.54, No.2 ページ: 506-517

    • 査読あり
  • [雑誌論文] 音節継続時間を利用した直線検出に基づく音声検索語検出2013

    • 著者名/発表者名
      大野哲平, 秋葉 友良
    • 雑誌名

      情報処理学会論文誌

      巻: Vol.54, No.2 ページ: 484-494

    • 査読あり
  • [雑誌論文] 距離つき音節n-gram索引による音声検索語検出の距離尺度の厳密化2013

    • 著者名/発表者名
      岩見圭祐,坂本渚,中川聖一
    • 雑誌名

      情報処理学会論文誌

      巻: Vol.54, No.2 ページ: 495-505

    • 査読あり
  • [雑誌論文] A robust/fast spoken term detection method based on a syllable n-gram index with a distance metric2012

    • 著者名/発表者名
      S. Nakagawa, K. Iwami, Y. Fujii, K.Yamamoto
    • 雑誌名

      Speech Communication

      巻: Vol.35 ページ: 470-485

    • DOI

      DOI:10.1016/j.specom.2012.12.001

    • 査読あり
  • [雑誌論文] Evaluation Framework Design of Spoken Term Detection Study at the NTCIR-9 IR for Spoken Documents Task2012

    • 著者名/発表者名
      H. Nishizaki, T. Akiba, K.Aikawa, T.Kawahara and T. Matsui
    • 雑誌名

      Journal of Natural Language Processing

      巻: Vol.19, No.4 ページ: 330-350

    • DOI

      DOI:10.5715/jnlp.19.329

    • 査読あり
  • [雑誌論文] Risk-based semi-supervised discriminative language modeling for broadcast transcription2012

    • 著者名/発表者名
      A. Kobayashi, T. Oku, T. Imai, S.Nakagawa
    • 雑誌名

      IEICE Trans. Inf. & Syst

      巻: Vol.E95-D,No.11 ページ: 2674-2681

    • DOI

      DOI:10.1587/transinf.E95.D.2674

    • 査読あり
  • [雑誌論文] Class-based n-gram language Model for new words using out-of-vocabulary to in-vocabulary similarity2012

    • 著者名/発表者名
      W. Naptali, M. Tsuchiya, S. Nakagawa
    • 雑誌名

      IEICE Trans. Inf. & Syst

      巻: Vol.E95-D,No.9 ページ: 2308-2316

    • DOI

      DOI:10.1587/transinf.E95.D.2308

    • 査読あり
  • [雑誌論文] Hidden conditional neural fields for continuous phoneme recognition2012

    • 著者名/発表者名
      Y. Fujii, K. Yamamoto, S. Nakagawa
    • 雑誌名

      IEICE Trans. Inf. & Syst.

      巻: Vol.E95-D, No.8 ページ: 2094-2104

    • DOI

      DOI:10.1587/transinf.E95.D.2094

    • 査読あり
  • [雑誌論文] Improving the readability of ASR results for lectures using multiple hypotheses and sentence-level knowledge2012

    • 著者名/発表者名
      Y. Fujii, K. Yamamoto, S. Nakagawa
    • 雑誌名

      IEICE Trans. Information and Systems

      巻: Vol.E-95, No.4 ページ: 1101-1111

    • DOI

      DOI:10.1587/transinf.E95.D.1101

    • 査読あり
  • [雑誌論文] Topic-dependent-class-based n-gram language model2012

    • 著者名/発表者名
      W. Naptali, M. Tsuchiya, S. Nakagawa
    • 雑誌名

      IEEE Trans. Audio,Speech and Language Processing

      巻: Vol.20, No.5 ページ: 1513-1525

    • DOI

      DOI:10.1109/TASL.2012.2183870

    • 査読あり
  • [学会発表] Incorporating Syllable Duration into Line-Detection-Based Spoken Term Detection

    • 著者名/発表者名
      T. Ohno and T. Akiba
    • 学会等名
      2012 IEEE Workshop on Spoken Language Technology, Paper No. TU-AM.8
    • 発表場所
      Miami Beach Resort & Spa, Miami, USA
  • [学会発表] Developing partially-transcribed speech corpus from edited transcriptions

    • 著者名/発表者名
      K. Ohta, M. Tsuchiya, S. Nakagawa
    • 学会等名
      Proc. LREC, pp.3399-3404
    • 発表場所
      Istanbul Convention & Exhibition Centre, ISTANBUL, TURKEY
  • [学会発表] 距離つき音節トライグラムによる音声検索法の距離尺度の厳密化

    • 著者名/発表者名
      坂本渚,岩見圭祐,中川聖一
    • 学会等名
      日本音響学会 2012年秋季研究発表会
    • 発表場所
      信州大学工学部(長野市)
  • [学会発表] ここまでできる音声ドキュメント処理技術

    • 著者名/発表者名
      中川聖一
    • 学会等名
      電気関係学会東海支部連合大会
    • 発表場所
      豊橋技術科学大学
    • 招待講演
  • [学会発表] 距離つき音節トライグラムを用いた音声入力による音声ドキュメントの検索語検索法の評価

    • 著者名/発表者名
      坂本渚,山本一公, 中川聖一
    • 学会等名
      日本音響学会 2013年春季研究発表会
    • 発表場所
      東京工科大学八王子キャンパス
  • [図書] 音声言語処理と自然言語処理2013

    • 著者名/発表者名
      中川聖一,小林聡,峯松信明,宇津呂武仁,秋葉友良,北岡教英,山本幹雄,甲斐充彦,山本一公,土屋雅稔
    • 総ページ数
      264
    • 出版者
      コロナ社

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi