Research on Silent interaction with deep neural networks
Project/Area Number |
19H04148
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61020:Human interface and interaction-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Rekimoto Jun 東京大学, 大学院情報学環・学際情報学府, 教授 (20463896)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2021: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2020: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2019: ¥7,930,000 (Direct Cost: ¥6,100,000、Indirect Cost: ¥1,830,000)
|
Keywords | サイレントスピーチ / 人間拡張 / 人工知能 / 音声処理 / 深層学習 / ヒューマンコンピュータインタラクション / ウィスパースピーチ / Human-AI-Integration / スピーチインタラクション / マルチモーダルインタラクション / サイレントボイス / ヒューマンAIインテグレーション / スピーチインタフェース |
Outline of Research at the Start |
深層学習による無音声発話(声帯を振動させずに、発話の口腔動作のみを行う)の認識の研究を行う。プローブにより取得する口腔の映像情報から、利用者が声帯を振動させずに発話した発声内容を認識し、音響特徴を生成するニューラルネットモデルを構築する。人間とコンピュータが緊密に連携した種々のインタラクションを支援する新しいウェアラブルコンピュータの構成が可能になる。また、咽頭障害、声帯機能障害、高齢による発声困難者に対して、声によるコミュニケーションを取り戻すための支援技術基盤を提供する。
|
Outline of Final Research Achievements |
Speech interfaces are rapidly becoming popular, but there are some limitations, such as their inability to be used in public or noisy environments. In this project, we studied silent speech recognition using deep learning. We constructed a deep learner that recognizes speech content from intraoral images observed by an ultrasonic imaging probe attached to the underside of the jaw, a mechanism that estimates speech from acceleration sensors attached to the jaw and throat for skin movement, and a mechanism that recognizes speech by acceleration sensors attached to a mask. We confirmed that the system can drive a smart speaker or other spoken dialogue system. Furthermore, we succeeded in constructing a multimodal interface that combines eye gaze information and command recognition from lip images.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究成果により、音声インタラクションが公共環境や騒音環境で利用できないなどの従来の制限を超えて利用できる可能性が出てきた。音声インタラクションは他の入力手段と比較しても高速で、手指を拘束しないなどの特徴を持つ。未来のモバイルインタフェースやウェアラブルインタフェースの手段としてサイレントスピーチが広範に利用される可能性がある。さらに、咽頭障害、声帯機能障害、高齢による発声困難者に対して、声によるコミュニケーションを取り戻すための支援技術としての利用意義がある。
|
Report
(4 results)
Research Products
(18 results)