2021 Fiscal Year Annual Research Report
Multi-Modal Speech Enhancement Using Mobile Device
Project/Area Number |
19K12905
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
松井 謙二 大阪工業大学, ロボティクス&デザイン工学部, 教授 (30613682)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 良久 九州工業大学, 大学院工学研究院, 教授 (10599955)
加藤 弓子 聖マリアンナ医科大学, 医学部, 研究員 (10600463)
水町 光徳 九州工業大学, 大学院工学研究院, 准教授 (90380740)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 発声支援 / 人工喉頭 / 口唇画像認識 / モバイル端末 / 深度画像 / 子音認識 |
Outline of Annual Research Achievements |
喉頭摘出者のための読唇による発声支援装置の開発を行っている。2020年度までに読唇方式による単語・フレーズ認識アルゴリズムの開発を行い、第3候補までで20単語中19単語(95%)を認識することができた。また、このアルゴリズムで携帯端末用アプリを開発し、実用化された場合に近い形での使用感評価も実施し、従来の電気式人工喉頭に比べて良好な結果が得られた。しかしながら、7名の健常者による認識実験では、認識精度が大きく変動し第6候補までで60%程度であった。2021年度では、この認識精度を向上させるため、母音のみを認識するアルゴリズムから子音認識機能を付与し、母音認識のみの方式より認識精度および安定度の高い認識方式の開発を行った。母音部については従来と同様に変分オートエンコーダによる特徴量抽出とCNNによる認識を行った。子音部については赤外の3Dカメラにより深度画像を抽出し、先ず、単音節認識の実験を行い、第6候補までで、80%程度の認識結果であり、深度画像を用いた効果がある程度確認できた。これにより、CV単位の認識方式では良好な結果が得られると考えられる。一方、単語・フレーズ認識では従来の母音認識による単語認識に比べて認識精度が向上できていない。これは、従来の口形素単位での方式と深度画像による認識方式の適切な組み合わせが出来ていないことが原因と考えられる。今後、CV、VCV単位の単語認識アルゴリズムに修正することで良好な認識精度が得られるようになることが期待できる。
|