研究概要 |
ロボット技術が進展するにつれ,これまでのようにあらかじめ定められた作業行程のみを機械が単独に繰り返し行うのではなく,人の指示を受けながら人が行う作業を補助する働きをするものが大変有効であることが認識されつつある.このような際の人とロボットが行う情報交換の手段にはいくつかの方法が考えられるが,そのなかでも言葉を利用することは,人にとって特に訓練を行わなくてもよいことや,特別な道具を利用しなくてもよいことなどの点から大変有効な手段であることがわかる. この点音声認識に関する研究は,従来から各所で盛んに行われているが,ロボットの利用を必要とする場面のように周囲の雑音が大変大きい環境では,十分に音声を認識できないという基本的な問題がいまだに解決できていない.本研究計画では,このような高雑音環境下での単語認識を実現する1つの手段として,視覚情報である唇の動きを実時間で取り込みながらそれを認識することにより、人が発する単語の認識を行うことを考える.これは人がいわゆる「読唇」によって,ある程度言葉を理解できることを考えれば実現性のある方法といえる.この方法によると周囲の雑音に影響されない単語認識システムを構築することができるだけでなく,先に述べたような人にとって特別な訓練や道具を必要としない柔軟なヒューマン・マシンインターフェイスを実現することができる. 本研究計画期間内には、上で述べた唇の動きから単語を認識するシステムを構築する.初年度にあたる昨年度は,人の発話中の顔画像を実時間で取り込み,それから唇の動きを抽出する手法について検討し,そのハードウエア化を試みた.開発を試みたハードウエアはFPGAと呼ばれる内部構造を自由に設計できる集積回路を中心に,プリント基板上に実現するものとした.FPGA中には動的輪郭モデルとよばれる,画像の輪郭を高速に抽出することができる回路を実現し,その結果現状では試作ではあるが画像1枚あたり平均で3ミリ秒で処理することができた.これは日本で標準のNTSCと呼ばれるビデオ信号の規格で定められるフレーム間の間隔が33ミリ秒であることを考えると,大変高速であり実時間処理ができることが実証された.今年度は昨年度の研究結果に基づき,高い雑音下でも正確に人の発話を検出できるよう,唇の動きの変化を捉えることによる発話区間の自動抽出手法について検討した.続いて,発話中の唇の動きを表現する各種のパラメータについて考察を加えた後,それを用いた認識手法を確立し,最後にこれらの技術を総合して実時間読唇システムの構築を試みた.その結果,特定の話者ではあるが,目的とする読唇システムを構築できた. 今後は本研究成果をもとに,より実環境に近い環境で利用できるシステムの開発が望まれる.
|