• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

音声中の任意語彙検出の高度化と音声認識・音声ドキュメント内容検索への応用

Research Project

Project/Area Number 23700111
Research InstitutionUniversity of Yamanashi

Principal Investigator

西崎 博光  山梨大学, 医学工学総合研究部, 助教 (40362082)

Project Period (FY) 2011-04-28 – 2014-03-31
Keywords音声ドキュメント処理 / 音声中の検索語検出(STD) / 音声ドキュメント検索(SDR) / 音声認識 / 音声インタフェース / 情報検索
Research Abstract

本研究の目的は大規模音声データから,任意の語彙が発話されている区間を特定する音声中の任意語彙検出(Spoken Term Detection,STD)技術の高度化を図ること,その技術を大規模音声ドキュメント内容検索(Spoken Document Retrieval,SDR)と音声認識に応用しこれらの精度を改善させることである.平成23年度は,STD技術の高度化に重点を置いて研究を行った.まず,検索対象の音声データをN個の音声認識器を用いて音声認識する.それぞれの音声認識器毎に出力される音声認識結果の特徴が異なることを有効利用する.つまり,認識器によって得意な音声,不得意な音声がある.そこで,このN個の認識結果を統合することで,多様な情報を持った語彙検出のためのインデックスを構築した.認識結果の統合方法には多数決法を導入した.例えば,N=10とした場合,/a/という音素が10個中8個の音声認識器から出力されたとすれば,この音素/a/に高い重み係数を設定する統合方法である.これにより誤検出を大幅に抑制することに成功した.さらに,検索用語彙に依存した動的な検索手法も行った.検索語の長さに応じて検索用のパラメータを調整することで,さらに検索精度を改善することができた.具体的には,情報処理学会音声言語情報処理研究会音声ドキュメント処理ワーキンググループが制定したSTD用テストコレクションの中の未知語セットを用いて評価した結果,検索精度を示すF値がベースラインに比べて17%向上した.また,国立情報学研究所が主催する国際ワークショップ「NTCIR-9(第9回NTCIRワークショップ成果報告会)」に参加した.このワークショップではSTDを対象とした競争型タスクが提案され,NTCIR-9に参加した全7チーム中,本STDシステムが最も良い検索精度を出し,本技術の優位性を示すことができた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

平成23年度の目標は,STD技術の高度化を図ることであった.本報告書の「研究実績の概要」でも説明したように,平成23年度は,高い検索精度が得られるSTD技術の開発を行い,その実力を,一般公開されている共通のテストコレクションや,国際ワークショップで示すことができた.このことから,計画通りにおおむね順調に研究が進んでいると言える.

Strategy for Future Research Activity

これまでの研究成果により,高い検索精度を持つSTD技術を開発することができた.しかし,検索精度は高いが,検索時間が遅く,実用的に本技術を利用するには難がある.そこで,本年度は,開発したSTDの検索精度を損なわない処理の高速化の研究を行う.具体的には,分散処理あるいはインデキシングの改良によって,これを実現する予定である.さらに,開発したSTD技術を用いて,音声認識の高精度化を目指す.まず,音声認識対象の音声からSTD用インデックスを作成する.音声認識に必要な言語モデルを学習するための学習データ(テキスト)に含まれている単語を,STD技術を用いて選別する.これにより,学習データのどの単語が認識対象の音声に含まれているのかを判断することができる.逆に言えば,音声認識でモデル化をする必要のない単語も分かる.不要な単語を学習しないようにすることで,音声認識対象音声に適応化(特化)した言語モデルを学習することができ,認識率の大幅な改善が期待できる.また,STD技術の応用を模索する.例えば,音声ドキュメント内容検索へ応用することで,検索の高精度化を目指す.また,音声インタフェースを備えたシステムに組み込むことで,使い勝手の良いインタフェースの実現を目指す.

Expenditure Plans for the Next FY Research Funding

平成24年度以降は,STDの分散処理化を計画しているため,高速計算機を3台購入予定にしている.さらに,平成23年度の研究成果を国際会議で報告するための旅費,研究成果をまとめた論文の論文掲載料を計上している.

  • Research Products

    (11 results)

All 2012 2011 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (7 results) Remarks (1 results)

  • [Journal Article] 音声ドキュメント内容検索のためのWEBを用いたドキュメント拡張2011

    • Author(s)
      西崎博光
    • Journal Title

      情報処理学会論文誌

      Volume: 52 Pages: 3461-3470

    • Peer Reviewed
  • [Journal Article] WEB Page Collection Using Automatic Document Segmentation for Spoken Document Retrieval2011

    • Author(s)
      Hiromitsu Nishizaki
    • Journal Title

      The proceedings of the 3rd Asia-Pacific Signal and Information Processing Association Annual Summit and Conference

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Effect of Confusion Network Combination on Speech Recognition System for Editing2011

    • Author(s)
      Satoshi Ishimaru
    • Journal Title

      The proceedings of the 3rd Asia-Pacific Signal and Information Processing Association Annual Summit and Conference

      Volume: - Pages: -

    • Peer Reviewed
  • [Presentation] 聞き耳インタフェースを備えたメモシステム「聞き耳メモリ」2012

    • Author(s)
      太田晃平
    • Organizer
      情報処理学会第74回全国大会講演論文集
    • Place of Presentation
      名古屋
    • Year and Date
      2012 – 37
  • [Presentation] 音声中の検索語検出における検出誤り抑制パラメータの検討2012

    • Author(s)
      古屋裕斗
    • Organizer
      第6回音声ドキュメント処理ワークショップ講演論文集
    • Place of Presentation
      豊橋
    • Year and Date
      2012 – 33
  • [Presentation] NTCIR-9総括と今後の展望2012

    • Author(s)
      酒井哲也
    • Organizer
      情報処理学会研究報告(情報基礎とアクセス技術)
    • Place of Presentation
      東京
    • Year and Date
      2012 – 326
  • [Presentation] 単語信頼度を用いた事後確率に基づくコンフュージョンネットワーク統合2011

    • Author(s)
      石丸聡
    • Organizer
      日本音響学会2011年秋季研究発表会講演論文集
    • Place of Presentation
      松江
    • Year and Date
      2011 – 922
  • [Presentation] Spoken Term Detection Using Multiple Speech Recognizers’ Outputs at NTCIR-9 SpokenDoc STD subtask2011

    • Author(s)
      Hiromitsu Nishizaki
    • Organizer
      The proceedings of the NTCIR-9 Workshop Meeting
    • Place of Presentation
      Tokyo
    • Year and Date
      2011 – 128
  • [Presentation] Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop2011

    • Author(s)
      Tomoyosi Akiba
    • Organizer
      The proceedings of the NTCIR-9 Workshop Meeting
    • Place of Presentation
      Tokyo
    • Year and Date
      2011 – 128
  • [Presentation] 音声ドキュメント処理ワーキンググループ活動報告2011

    • Author(s)
      相川清明
    • Organizer
      第13回音声言語シンポジウム,情報処理学会研究報告(音声言語情報処理)
    • Place of Presentation
      東京
    • Year and Date
      2011 – 1219
  • [Remarks] ・NTCIR-9成果報告会オンライン予稿集にて,本研究成果の論文が閲覧できます.

    • URL

      http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings9/NTCIR/toc_ntcir.html#SPOKENDOC

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi