2008 年度実績報告書

語彙の確率的構造に基づく符号化による多選択肢タスク用音声認識の高精度化

研究課題

研究課題/領域番号	20500166
研究機関	法政大学
研究代表者	伊藤克亘法政大学, 情報科学部, 教授 (30356472)
キーワード	音声認識 / 音声インタフェース
研究概要	多選択肢タスクの具体的な例として、携帯音楽プレーヤ用の音声インタフェースを取り上げ、一人の話者が同一単語を多数発話したコーパスのプロトタイプを構築した。具体的には、25語を10発話ずつ発話したものを、のべ10名分収録した。これにより、多数発話コーパスの設計に関する知見が得られた。また、収録環境による認識精度への影響を考慮するために複数のマイク、複数の発話環境での収録も行った。具体的には、USBスピーカーホン、bluetoothヘッドセットで収録した。発話環境としては、高騒音下の環境として、交通量の激しい路上、自動車内、テレビ視聴時の居室などで収録した。さらに、日常生活における音声インタフェースの利用可能性を検証するため、実際の日常生活下でのデータ収録も行った。70時間以上のデータを収録し、収録機器、収音デバイスの検証、評価をおこなった。これらの研究により、モバイル環境においては、bluetoothマイクロホンが装着感、収音性能の面から有効であることがわかった。また、携帯音楽プレーヤの曲目選択というタスクでは、5000語程度で、現状のニーズには十分であることがわかった。認識率の調査からは、従来からも問題とされる子音などが認識率の悪化に関与していることがわかったが、一方で、音響モデル固有の問題もあることが判明した。また、音声認識処理を評価するための新しいアプリケーションとして、音声ライフログデータの収録も行った。バイノーラルマイクを用い、収録方法を検討するため、70時間以上のデータを実際の生活環境で収録した。

研究成果
(3件)

すべて 2009 2008

すべて学会発表 (3件)

[学会発表] 音響情報を用いたライフログデータのインデキシング2009
- 著者名/発表者名
  山野貴一郎
- 学会等名
  情報処理学会全国大会
- 発表場所
  立命館大学
- 年月日
  2009-03-11
[学会発表] バイノーラルマイクを用いたライフログ映像のショット識別2008
- 著者名/発表者名
  山野貴一郎
- 学会等名
  第23回信号処理シンポジウム
- 発表場所
  金沢
- 年月日
  2008-11-13
[学会発表] Detecting Scenes in Lifelog Videos based on Probabilistic Models of Audio data2008
- 著者名/発表者名
  Kiichiro Yamano
- 学会等名
  Acoustics 08
- 発表場所
  Paris
- 年月日
  2008-07-03