2020 Fiscal Year Research-status Report
小型デバイスのための瞳孔・鼻孔位置を用いた視線,頭部方向検出および読唇技術の開発
Project/Area Number |
19K04293
|
Research Institution | Shizuoka University |
Principal Investigator |
福元 清剛 静岡大学, 工学部, 助教 (60600129)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 瞳孔 / 鼻孔 / 口領域 / 視線検出 / 顔方向 / 口唇 / ディープラーニング / スマートフォン |
Outline of Annual Research Achievements |
本研究では,スマートフォンやタブレットなどの小型デバイスで使用可能なロバストで非接触の視線・頭部方向検出技術および読唇技術(発話時の口唇の形状から,発話内容を読み取る)を開発し,最終的にこれらの技術を実装した装置の試作を行う.これらの技術が開発されれば,視線や頭部のジェスチャーのみでの小型デバイスの操作や視線情報の広告業界での活用,声を出すことができない環境において唇の動きだけで文字の入力が可能といった用途が期待できる.本研究を達成するために,これまでに我々が開発してきた瞳孔および鼻孔検出技術を応用し,視線および頭部方向を検出する必要がある.また,瞳孔・鼻孔との相対的な位置関係から口の領域を検出し,口唇の変化を検出することで,発話内容を取得することを試みる. 本研究では,モノクロカメラの画像中からユーザの瞳孔を検出し,その位置に基づいて鼻孔や口領域を検出する必要がある.これまでの研究では,本研究室で開発してきた瞳孔と鼻孔の検出技術を応用し,検出した左右の瞳孔中心と鼻孔中点を基準とする三角形の平面から顔方向と口領域をそれぞれ求めた.ヒトの口唇の大きさや形状には個人差があるため,カメラ画像中に長方形の口唇検出用のウインドウを与えるだけでは,ウインドウ内に口唇が納まらない場合や,背景が含まれる場合があった.そこで,3次元空間において円柱や円環といった3次元の口領域を設定し,その口領域をカメラ画像に投影することで上述した問題の解決を図った.また,スマートフォンやタブレットに取り付けられる瞳孔検出用のカメラとして,近赤外領域に感度を持つグローバルシャッターの小型カメラを新たに採用した.口唇の動きから発話内容を取得するためだけでなく,瞳孔検出のロバスト性を向上させるためにCNNを導入し,特に瞬きより瞳孔が非検出となった場合での眼領域の検出を試みた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでに,近赤外領域に感度を持つモノクロカメラと近赤外LED光源などから構成した光学系2台を用いて瞳孔と鼻孔の三次元座標をそれぞれ検出した.左右の瞳孔と鼻孔の中点が成す平面の法線を基準として顔方向を求めた.また,両瞳孔位置を基準として口領域を設定するが,口唇は前方に突出しているため,カメラ画像上に長方形の口領域を設定すると,口領域内に口唇が収まらない場合があった.そこで,3次元空間において円柱や円環状の口領域を作成し,その口領域があたかも口唇に張り付いているように設定して口唇の形状に合わせた.そして,口領域の奥行方向の位置や円柱,円環状の縦方向と横方向の曲率をそれぞれ変化させ,最も口唇検出に適したパラメータを算出した. 小型デバイスでの瞳孔検出用の小型カメラとして,RaspberryPi用の近赤外領域に感度を持つローリングシャッターのカメラを使用していた.しかし,ローリングシャッターではカメラの露光と光源の発光タイミングとを完全に合わせることができなかったため,被験者の顔が写らない(暗くなる)場合があった.そこで本研究では,グローバルシャッターを採用したUSBカメラを2台使用し,2台のカメラでリアルタイムでの瞳孔検出を可能とした.また,視線検出に必要な角膜反射も現れており,視線検出も可能であることが示唆された.なお,近赤外LED光源については,これまでに開発した光源を利用したが,より瞳孔を検出しやすいように発光方法を改良した. 本研究では,カメラ画像から瞳孔を検出し,瞳孔が正しく検出できた場合は瞳孔周辺にウインドウを与え,瞳孔のトラッキングを行っている.しかし,ユーザが瞬きなどで目を閉じた場合,瞳孔検出ができないため,トラッキングが解除される.そこで,CNNを用いて,ユーザが目を閉じている際の画像と目以外の画像をそれぞれ学習させ,閉眼時でも目のトラッキングができるかを試みた.
|
Strategy for Future Research Activity |
これまでの研究で,瞳孔と鼻孔の3次元座標を基準として顔方向や口領域を検出した.口領域の検出において新たに円環状の3次元口領域を設定し,口領域を設定する際の奥行方向の位置や円柱・円環状領域の縦と横方向の曲率について検討した.しかし,これらは各設定値を変化させながら決定しており,計算機コストがかかる.このため,GPUを用いた演算を行ったが,今後はさらにリアルタイム性を高める必要がある.また,読唇技術に繋がる発話内容の分類については,閉眼時の目領域検出に利用したCNNを同様に使用し,口唇の形状や動き,発話内容,音声などを関連付けて学習させることで,技術開発に活用できるのではないかと推察しているが,まだ着手に至っていない.なお,CNNにおける学習用データの収集が困難である場合も考慮し,市販されている音声認識ソフトウェアや,既存のCNN用データベースを用いた口唇からの発話解析アルゴリズムなどを利用することも検討している. 小型デバイスへの実装では,スマートフォン用に選定したグローバルシャッターのカメラに置き換え,開発した近赤外LED光源を用いて,2台のカメラでリアルタイムに瞳孔検出が可能であることを確かめた.また,注視点検出に必要な角膜反射も検出が可能であることが示唆された.今後は,太陽光が顔に照射されているような高照度環境下でも瞳孔や角膜反射の検出が可能かを確かめる.また,注視点検出には導入したカメラで瞳孔の3次元座標を取得する必要があり,このためには2台のカメラ同士でのカメラ(ステレオ)較正が求められる.カメラ較正には成功しているため,今後は瞳孔の3次元座標を検出するとともに,注視点検出に必要な角膜反射の検出や,注視点検出精度を向上させるための幾何学的な手法の導入などを行う予定である.
|