2019 Fiscal Year Research-status Report
Multi-Modal Speech Enhancement Using Mobile Device
Project/Area Number |
19K12905
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
松井 謙二 大阪工業大学, ロボティクス&デザイン工学部, 教授 (30613682)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 良久 九州工業大学, 大学院工学研究院, 教授 (10599955)
加藤 弓子 聖マリアンナ医科大学, 医学部, 研究員 (10600463)
水町 光徳 九州工業大学, 大学院工学研究院, 准教授 (90380740)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 発声支援 / 人工喉頭 / 口唇画像認識 / モバイル端末 |
Outline of Annual Research Achievements |
本年度は,先ず,低コスト,周囲の視線が気にならない外観,カメラ,ディスプレイ連携による使いやすいユーザインターフェイスなどを特徴とする読唇方式による発声支援のための基礎検討を行った.スマートフォンを用いた本方式のユーザインターフェイスの使用感調査では,使いやすさと音声出力遅延による影響について評価実験を行った.アンケートの結果から,ユーザインターフェイスのさらなる工夫と,遅延は0.1 sec程度に抑える必要があることが確認された.さらに実際に口唇認識を行った場合の使用感調査を行うため,YOLOv3-tinyを用いた口唇認識による母音推定機能を実装し,使用感調査を行った結果,遅延と精度改善により期待できるとの意見が得られた。 ユーザインターフェイス評価と並行して母音推定の認識精度と計算速度の向上のため,発声したい単語を登録することで推定でき,少量のデータを用いて使用者に最適化する手法を検討した.モデルの学習には,各母音(A,I,U,E,O)と閉唇状態(X)の6種類の口形と口形を2音節ずつ組み合わせた計36種類の動画を使用した.単語認識精度の確認として,テスト用データ15種類の動画を使用した.提案手法では,PCやスマートフォンのカメラで撮影した動画を30fpsで画像に変換し,各画像に対して口唇領域画像の抽出と部位画像の特徴量抽出を行い,さらに各母音と閉唇状態の6種類の口形を推定し,生成された口形列から単語を認識する.日本語20単語を用いて,単語認識精度の確認を行った.結果として,第一候補のみでは20単語中12単語(60%),第三候補まで含めると20単語中19単語(95%)を認識することができた.提案手法により少量のデータを用いて提案手法でモデルの学習を行うことで,発話リストに登録した単語を高い精度で認識することが可能であることが確認された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は低コスト,周囲の視線が気にならない外観,カメラ,ディスプレイ連携による使いやすいユーザインターフェイスなどを特徴とする読唇方式による発声支援装置の開発である.本年度は,1)スマートフォンを用いた本方式のユーザインターフェイスの使用感調査にて許容遅延時間の目安,本方式のユーザー意見が良好であった.2)各母音(A,I,U,E,O)と閉唇状態(X)の6種類の口形と口形を2音節ずつ組み合わせた計36種類の動画を使用してVAEとCNNによる単語認識実験で第一候補のみでは20単語中12単語(60%),第三候補まで含めると20単語中19単語(95%)を認識することができた.また、音響学会にて3件の発表,DCAI2020国際会議への投稿受理,など順調に進展している.
|
Strategy for Future Research Activity |
次年度は,1)スマートフォンでの読唇アプリの精度、速度向上,2)口形素を用いた単語認識方式での評価単語数の拡大,および被験者の増加による方式の改良,を主に実施し,ユーザー評価実験を実施する.
|
Causes of Carryover |
2020年3月の国際会議にて発表を予定していたが、2020年10月に行われる17th International Conference on Distributed Computing and Artificial Intelligenceにて発表することになったため、参加費用、旅費などの繰り越しを行った。その他、アルゴリズム開発を中心に行ったため、評価実験装置の購入を次年度に集中的に行う。
|