2014 Fiscal Year Research-status Report

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

Research Project

Project/Area Number	25730109
Research Institution	Gifu University
Principal Investigator	田村哲嗣岐阜大学, 工学部, 助教 (10402215)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境
Outline of Annual Research Achievements	本研究は、音声と画像を用いるマルチモーダル音声認識において、特徴量抽出、モデル化、統合法などさまざまな要素技術を、タスクや環境に応じて最適化する「構成最適化手法」の確立を目指している。また、本研究を通じてマルチモーダル音声認識の認識性能を向上させることで、さまざまな環境・タスクへの適用を可能とし、その実用化を目指している。本年度は、第一に大語彙マルチモーダル音声認識の実験を行った。複数話者の音声・口唇画像を収録し、実験用データベースを構築した。実環境を想定して、テスト用音声に音響雑音を付加し実験を行った。この際、複数の特徴量を使用し、その特性や認識性能を調査した。第二に、マルチモーダル音声認識で用いられるマルチストリームHMM（隠れマルコフモデル）における、ストリーム重み係数に関する検討を行った。このパラメータは、認識時に環境などに応じて適切に設定する必要があり、その決定手法としては申請者らの研究をはじめ、いくつかの先行事例がある。本研究では構成最適化の一環として新たな手法を考案し、良好な結果を得た。第三に、画像特徴量の最適化に関する検討を行った。従前提案されてきた複数の画像特徴量について、認識実験を通じた評価を行いその結果を分析した。ここで得られた知見に加え、近年注目されている深層学習の技術を活用した手法を検討した。結果として、読唇性能の大幅な向上に成功し、また知見の有効性を確認できた。また関連テーマとして、画像中に複数の顔がある場合、どの顔が話しているのかを判定する研究を行った。これは本研究のマルチモーダル音声認識のシステム化において必要となる技術である。特に、発話していない顔の棄却に効果がみられた。最後に、昨年度を含めこれまでに行ってきた研究内容（モデル適応、フィールドテストに向けたデータ収集・実験、顔検出）について、国内外の学会・国際会議で発表を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 構成最適化の考えをベースとしたマルチストリームHMMや画像特徴量などの改善により、従来の研究と比較して、マルチモーダル音声認識や読唇の大幅な性能向上が得られており、本研究の成果は着実に得られている。これらの成果は最終年度において積極的に対外発表していく予定である。一方、本研究で収集・利用するデータベースについては、収録人数やデータ整備に未だ不十分な点がある。この点を早急に改善し、マルチモーダル音声認識における他の要素技術に対する構成最適化の評価を行っていく。
Strategy for Future Research Activity	最終年度に向けて、本研究をさらに発展させる課題や重点的に取り組む課題を整理し、工程上の整理を行い、研究を推進していく予定である。また、本研究の成果を踏まえ、マルチモーダル音声認識の実用化に向けた取り組みや開発をすすめていく。

Research Products
(3 results)

All 2014

All Presentation (3 results)

[Presentation] Data collection for mobile audio-visual speech recognition in various environments2014
- Author(s)
  Satoshi Tamura, Takumi Seko and Satoru Hayamizu,
- Organizer
  国際会議 Oriental COCOSDA 2014
- Place of Presentation
  Phuket, Thailand
- Year and Date
  2014-09-11 – 2014-09-11
[Presentation] Speaking-face detection for multimodal person recognition in TV shows2014
- Author(s)
  Satoshi Tamura and Herve Bredin
- Organizer
  日本音響学会 2014年秋季研究発表会
- Place of Presentation
  北海学園大学
- Year and Date
  2014-09-05 – 2014-09-05
[Presentation] マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討2014
- Author(s)
  絹田卓也, 田村哲嗣, 速水悟
- Organizer
  第13回情報科学技術フォーラム（FIT2014）
- Place of Presentation
  筑波大学
- Year and Date
  2014-09-05 – 2014-09-05

2014 Fiscal Year Research-status Report

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

Principal Investigator

田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)

Current Status of Research Progress

Reason

Research Products

[Presentation] Data collection for mobile audio-visual speech recognition in various environments2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Speaking-face detection for multimodal person recognition in TV shows2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

田村哲嗣岐阜大学, 工学部, 助教 (10402215)