• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

語彙の確率的構造に基づく符号化による多選択肢タスク用音声認識の高精度化

Research Project

Project/Area Number 20500166
Research InstitutionHosei University

Principal Investigator

伊藤 克亘  法政大学, 情報科学部, 教授 (30356472)

Keywords音声認識 / 音声インタフェース
Research Abstract

多選択肢タスクの具体的な例として、携帯音楽プレーヤ用の音声インタフェースを取り上げ、一人の話者が同一単語を多数発話したコーパスのプロトタイプを構築した。具体的には、25語を10発話ずつ発話したものを、のべ10名分収録した。これにより、多数発話コーパスの設計に関する知見が得られた。また、収録環境による認識精度への影響を考慮するために複数のマイク、複数の発話環境での収録も行った。具体的には、USBスピーカーホン、bluetoothヘッドセットで収録した。発話環境としては、高騒音下の環境として、交通量の激しい路上、自動車内、テレビ視聴時の居室などで収録した。さらに、日常生活における音声インタフェースの利用可能性を検証するため、実際の日常生活下でのデータ収録も行った。70時間以上のデータを収録し、収録機器、収音デバイスの検証、評価をおこなった。これらの研究により、モバイル環境においては、bluetoothマイクロホンが装着感、収音性能の面から有効であることがわかった。また、携帯音楽プレーヤの曲目選択というタスクでは、5000語程度で、現状のニーズには十分であることがわかった。認識率の調査からは、従来からも問題とされる子音などが認識率の悪化に関与していることがわかったが、一方で、音響モデル固有の問題もあることが判明した。
また、音声認識処理を評価するための新しいアプリケーションとして、音声ライフログデータの収録も行った。バイノーラルマイクを用い、収録方法を検討するため、70時間以上のデータを実際の生活環境で収録した。

  • Research Products

    (3 results)

All 2009 2008

All Presentation (3 results)

  • [Presentation] 音響情報を用いたライフログデータのインデキシング2009

    • Author(s)
      山野貴一郎
    • Organizer
      情報処理学会全国大会
    • Place of Presentation
      立命館大学
    • Year and Date
      2009-03-11
  • [Presentation] バイノーラルマイクを用いたライフログ映像のショット識別2008

    • Author(s)
      山野貴一郎
    • Organizer
      第23回信号処理シンポジウム
    • Place of Presentation
      金沢
    • Year and Date
      2008-11-13
  • [Presentation] Detecting Scenes in Lifelog Videos based on Probabilistic Models of Audio data2008

    • Author(s)
      Kiichiro Yamano
    • Organizer
      Acoustics 08
    • Place of Presentation
      Paris
    • Year and Date
      2008-07-03

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi