研究課題/領域番号 |
25730109
|
研究種目 |
若手研究(B)
|
研究機関 | 岐阜大学 |
研究代表者 |
田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境 |
研究概要 |
本研究は、音声と画像を用いるマルチモーダル音声認識において、その要素技術の組み合わせ・処理方法を、環境やタスクに応じ最適化する「構成最適化手法」の確立を目標としている。あわせて、マルチモーダル音声認識の認識性能を向上させることで、さまざまな環境・タスクへのマルチモーダル音声認識の適用を可能にし、その実用化を目指している。 本年度は、その第一段階として、マルチモーダル音声認識の要素技術を評価する「最適化尺度」の検討を行った。例えば、モデルやモジュールを測る尺度として、KLダイバージェンスについて調査した。一般性・汎用性の観点から、他のタスクも含めたシミュレーション実験を行い、一定の有効性をみた。また、「最適化尺度」の評価実験に使用する実環境データベースについて、必要なラベル付けやデータ整備を行った。予備実験として、モデル適応技術を用いた認識実験を行い、ベースとなる手法の評価と、実用化に向けた検討を行った。あわせて、マルチモーダル音声認識の要素技術の改善も行った。具体的には、読唇技術やスパース表現を用いた特徴量改善の研究を行った。 なお、マルチモーダル音声認識の実用化を見据え、本研究では最終年度で、マルチモーダル音声認識の実環境でのフィールドテストを行う予定である。このための準備として、従来PC上で動作していたリアルタイム・マルチモーダル音声認識システムの発展形にあたる、Android端末上でリアルタイム動作するシステムの開発を行った。これを用いて、さまざまな環境で実際に音声・画像データの収録を行った。ここで収録したデータは、前述の実環境データベースとあわせて、最適化尺度の評価実験に用いる予定である。加えて、このデータを用いた認識実験を行い、フィールドテストに向けたシステムの改善点が明らかとなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
「最適化尺度」の検討・評価実験に用いる実環境データベースについて、本研究で利用可能とするための整備作業が遅れている。できるだけ早い時期に利用可能状態にするとともに、評価実験を速やかに開始したい。他方、最終年度に予定していたモバイル端末用リアルタイム・マルチモーダル音声認識システムの開発を前倒しし並行作業で進めている。データベース整備の遅れの影響が、次年度以降になるべく及ばないよう、工程上の工夫を行った。以上を踏まえ、上記のとおり全体的な達成度を評価した。
|
今後の研究の推進方策 |
使用する実環境データベースの整備後、速やかに「最適化尺度」の検討実験を行いたい。ここまでで得られた知見や技術を基に、次年度は大語彙タスクへの適用を行っていく予定である。
|