2008 Fiscal Year Annual Research Report

音声・画像のマルチモーダル情報協調・情報統合を用いた音声認識の高度化

Research Project

Project/Area Number	18700175
Research Institution	Gifu University
Principal Investigator	田村哲嗣 Gifu University, 工学部, 助教 (10402215)
Keywords	音声認識 / マルチモーダル / 情報統合 / 音声区間検出 / 画像特徴量 / 情報協調
Research Abstract	本研究では、情報協調・情報統合およびマルチモーダル音声認識について、精度向上のためのさまざまな検討を行った。また得られた知見を音声認識以外の分野に適用し、本研究の成果の有効性を確認した。まず、マルチモーダル音声認識の情報統合において、モダリティ間の時間ズレや画像のフレームレートの低下が、認識性能へ与える影響を調査した。時間ズレに関しては、同期状態から乖離するにつれて性能が低下することを確認し、ズレを数十ミリ秒以内に抑えるべきであるとの結論に至った。フレームレートについては、学習時には高いフレームレートが望ましい一方、認識時には7.5フレーム/秒以上の値が確保できれば問題ないことが判明した。これらの研究成果は、情報協調・情報統合のアルゴリズムおよびシステムの実装の改良に非常に有益である。次に、マルチモーダル音声認識の画像特徴量の改善を試みた。画像から得られた特徴を特異値分解などにより正規化・直交化することで、従来の特徴量と比べて最大6,4%の向上(音声のみと比べ39.5%の誤り率削減)が得られた。本手法は、立体情報を含むさまざまな画像情報に適用が可能である。マルチモーダル音声認識においても、音声区間を事前に識別することが性能改善に有効と考えられる。そこで本研究の情報統合手法を活用し、マルチモーダル音声区間検出の手法を構築した。モデルベースの初期統合法では、各モダリティのみの結果と比較して、最大で約5,5%識別性能が向上した。モデルを用いない統合手法では、等誤り率で、クリーン環境で3.4%、実環境下で1.5%の識別性能改善がみられ、いずれの手法においても、本研究で得られた知見は有効に機能していることが確かめられた。

Research Products
(5 results)

All 2009 2008

All Presentation (5 results)

[Presentation] 実環境における口唇動画像を用いたマルチモーダル音声区間検出2009
- Author(s)
  竹内、羽柴、田村、速水
- Organizer
  口本音響学会2009年春季研究発表会
- Place of Presentation
  東京工業大学大岡山CP
- Year and Date
  2009-03-19
[Presentation] マルチストリームHMMを用いた音声と画像による音声区間検出2009
- Author(s)
  羽柴、竹内、田村、速水
- Organizer
  口本音響学会2009年春季研究発表会
- Place of Presentation
  東京工業大学大岡山CP
- Year and Date
  2009-03-17
[Presentation] マルチモーダル音声認識における音声と画像の同期に関する調査2008
- Author(s)
  田村、石川、速水
- Organizer
  電子情報通信学会技術研究報告
- Place of Presentation
  ソフトピアジャパン
- Year and Date
  2008-11-20
[Presentation] 画像特徴量の正規化によるマルチモーダル音声認識の改善2008
- Author(s)
  石川、田村、速水
- Organizer
  電子情報通信学会技術研究報告
- Place of Presentation
  ソフトピアジャパン
- Year and Date
  2008-11-20
[Presentation] 画像特徴量の正規化によるマルチモーダル音声認識の改善2008
- Author(s)
  石川、田村、速水
- Organizer
  日本音響学会2008年秋季研究発表会
- Place of Presentation
  九州大学大橋CP
- Year and Date
  2008-09-10

2008 Fiscal Year Annual Research Report

音声・画像のマルチモーダル情報協調・情報統合を用いた音声認識の高度化

Principal Investigator

田村 哲嗣 Gifu University, 工学部, 助教 (10402215)

Research Products

[Presentation] 実環境における口唇動画像を用いたマルチモーダル音声区間検出2009

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] マルチストリームHMMを用いた音声と画像による音声区間検出2009

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] マルチモーダル音声認識における音声と画像の同期に関する調査2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 画像特徴量の正規化によるマルチモーダル音声認識の改善2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 画像特徴量の正規化によるマルチモーダル音声認識の改善2008

Author(s)

Organizer

Place of Presentation

Year and Date

田村哲嗣 Gifu University, 工学部, 助教 (10402215)