研究課題/領域番号 |
25730109
|
研究機関 | 岐阜大学 |
研究代表者 |
田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境 |
研究実績の概要 |
本研究は、音声と画像を用いるマルチモーダル音声認識において、特徴量抽出、モデル化、統合法などさまざまな要素技術を、タスクや環境に応じて最適化する「構成最適化手法」の確立を目指している。また、本研究を通じてマルチモーダル音声認識の認識性能を向上させることで、さまざまな環境・タスクへの適用を可能とし、その実用化を目指している。 本年度は、第一に大語彙マルチモーダル音声認識の実験を行った。複数話者の音声・口唇画像を収録し、実験用データベースを構築した。実環境を想定して、テスト用音声に音響雑音を付加し実験を行った。この際、複数の特徴量を使用し、その特性や認識性能を調査した。 第二に、マルチモーダル音声認識で用いられるマルチストリームHMM(隠れマルコフモデル)における、ストリーム重み係数に関する検討を行った。このパラメータは、認識時に環境などに応じて適切に設定する必要があり、その決定手法としては申請者らの研究をはじめ、いくつかの先行事例がある。本研究では構成最適化の一環として新たな手法を考案し、良好な結果を得た。 第三に、画像特徴量の最適化に関する検討を行った。従前提案されてきた複数の画像特徴量について、認識実験を通じた評価を行いその結果を分析した。ここで得られた知見に加え、近年注目されている深層学習の技術を活用した手法を検討した。結果として、読唇性能の大幅な向上に成功し、また知見の有効性を確認できた。 また関連テーマとして、画像中に複数の顔がある場合、どの顔が話しているのかを判定する研究を行った。これは本研究のマルチモーダル音声認識のシステム化において必要となる技術である。特に、発話していない顔の棄却に効果がみられた。 最後に、昨年度を含めこれまでに行ってきた研究内容(モデル適応、フィールドテストに向けたデータ収集・実験、顔検出)について、国内外の学会・国際会議で発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
構成最適化の考えをベースとしたマルチストリームHMMや画像特徴量などの改善により、従来の研究と比較して、マルチモーダル音声認識や読唇の大幅な性能向上が得られており、本研究の成果は着実に得られている。これらの成果は最終年度において積極的に対外発表していく予定である。 一方、本研究で収集・利用するデータベースについては、収録人数やデータ整備に未だ不十分な点がある。この点を早急に改善し、マルチモーダル音声認識における他の要素技術に対する構成最適化の評価を行っていく。
|
今後の研究の推進方策 |
最終年度に向けて、本研究をさらに発展させる課題や重点的に取り組む課題を整理し、工程上の整理を行い、研究を推進していく予定である。 また、本研究の成果を踏まえ、マルチモーダル音声認識の実用化に向けた取り組みや開発をすすめていく。
|