研究概要 |
音声認識に関する研究は各所で盛んに行われており,現在では不特定な話者が発する言葉を高い確率で認識するシステムについても報告がなされている.しかし実環境では周囲に雑音が存在するため,その影響を受け認識率は大幅に低下してしまう.これを解決する1つの手段として,唇の動きを視覚情報として取り込むことにより,音声の認識を援助することが可能であると考えられる.これらは耳の不自由な人が「唇読法」によって言葉を理解していることを考えれば納得できる.このように唇の動きを実時間で抽出し,視覚情報として音声情報と併用して音声の認識を行う技術を確立することは重要であるが,未だに確立されているとは言い難い状況にある. 人の顔の情報を画像として取り込み,これを補助的な情報として用いることで,より正確な音声認識を行う手法について検討することを目的とする.先に述べたように音声認識を行う技術そのものは比較的研究が進んでいる.しかし本研究計画で目的としている高い雑音環境下では十分な認識率を得ることができない.これは雑音中からの認識対象の音声の抽出手法や話者適応化の技術などの基礎的な技術が十分確立されていないことも大きな理由の一つである.本研究計画では,音声データからだけでは良好な成果が得られなかったこれらの技術を,視覚情報を積極的に利用することで問題の解決を図った. 本研究計画の特色は,人の顔画像から得られる唇の動きを利用することにより,従来実用化が進まなかった高雑音環境下での音声認識を行う技術を確立しようとする点にある.それに伴い,顔画像から唇などの顔の部分の抽出を,実時間で行う技術を確立することを目指す点も本研究計画の特徴といえる.この点本研究計画では複数の点を結んだ閉曲線によりあらわされる新しい動的輪郭モデルを考案し,顔画像から唇などの領域を連続的に抽出した.また,得られた唇の動きと音声情報とを併用した新しい認識手法の確立を目指す点も本研究計画の特色である.唇の動きに基づく音声認識では,無雑音時の音声情報だけに基づく音声認識ほど高い認識率は得られないが,反面周囲の雑音が音声に重畳された場合でもその影響を受けることはない.この点を考慮して音声情報と視覚情報を併用することで,従来の音声情報だけに基づく音声認識手法では解決できなかった問題を解決した. 今後本研究で得られた成果をもとに,雑踏や工場などの高い雑音環境下におけるロボットなどの機器の制御手法について研究を進めることを検討している.
|