研究課題/領域番号 |
19H04148
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61020:ヒューマンインタフェースおよびインタラクション関連
|
研究機関 | 東京大学 |
研究代表者 |
暦本 純一 東京大学, 大学院情報学環・学際情報学府, 教授 (20463896)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2019年度: 7,930千円 (直接経費: 6,100千円、間接経費: 1,830千円)
|
キーワード | サイレントスピーチ / 人間拡張 / 人工知能 / 音声処理 / 深層学習 / ヒューマンコンピュータインタラクション / ウィスパースピーチ / Human-AI-Integration / スピーチインタラクション / マルチモーダルインタラクション / サイレントボイス / ヒューマンAIインテグレーション / スピーチインタフェース |
研究開始時の研究の概要 |
深層学習による無音声発話(声帯を振動させずに、発話の口腔動作のみを行う)の認識の研究を行う。プローブにより取得する口腔の映像情報から、利用者が声帯を振動させずに発話した発声内容を認識し、音響特徴を生成するニューラルネットモデルを構築する。人間とコンピュータが緊密に連携した種々のインタラクションを支援する新しいウェアラブルコンピュータの構成が可能になる。また、咽頭障害、声帯機能障害、高齢による発声困難者に対して、声によるコミュニケーションを取り戻すための支援技術基盤を提供する。
|
研究成果の概要 |
音声インタフェースは急速に普及してきているが、公共環境や騒音環境で利用できないなどの制限があった。本課題では、深層学習による無音声発話認識の研究を行った。顎の下側に取り付けられた超音波イメージングプローブによって観察される口腔内映像から発声内容を認識する深層学習器、皮膚運動を顎や喉に添付した加速度センサーから発話を推定する機構、マスクに添付した加速度センサーにより発話を認識する機構を構築し、スマートスピーカーなど音声対話システムを駆動できることを確認した。さらに、視線情報と口唇映像からのコマンド認識を組み合わせるマルチモーダルインタフェースの構築に成功した。
|
研究成果の学術的意義や社会的意義 |
本研究成果により、音声インタラクションが公共環境や騒音環境で利用できないなどの従来の制限を超えて利用できる可能性が出てきた。音声インタラクションは他の入力手段と比較しても高速で、手指を拘束しないなどの特徴を持つ。未来のモバイルインタフェースやウェアラブルインタフェースの手段としてサイレントスピーチが広範に利用される可能性がある。さらに、咽頭障害、声帯機能障害、高齢による発声困難者に対して、声によるコミュニケーションを取り戻すための支援技術としての利用意義がある。
|