研究課題/領域番号 |
19H04148
|
研究機関 | 東京大学 |
研究代表者 |
暦本 純一 東京大学, 大学院情報学環・学際情報学府, 教授 (20463896)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 人間拡張 / ヒューマンコンピュータインタラクション / サイレントスピーチ / 深層学習 |
研究実績の概要 |
音声認識は、コンピュータと人間の主要なインタラクション手段として、スマートフォンやスマートスピーカーなどで広範囲で利用できるようになっている。しかし、公共環境では他者の迷惑になったり、会話の秘匿性が担保できないなど利用できる環境に制限があった。有声発話を介さずに、発話時の口腔内の動きから発話を認識することができれば、コンピュータとのインタラクション手段として、また整体損傷者の会話支援技術として大きな可能性がある。今年度は、昨年度に実施した超音波エコーイメージングによる口腔内映像を深層学習により音声特徴量に変換する方法に加えて、皮膚に添付した加速度センサー、マスクに添付した加速度センサーによる認識を試みた。これにより、限定された語彙ではあるが、利用者の無声発話から実時間で認識することに成功した。これらの成果は、ヒューマンオーグメンテーションの国際学会であるAugmenetd Humans 2021にて発表した。さらに、視線とサイレントボイスを併用する研究を実施した。見ている対象物により発話すべき語彙が限定されるため、マルチモーダルインタラクションとして視線とサイレントボイスの相乗効果を確認することができた。この研究成果は視線インタラクションの国際学会であるETRA 2021に採択が決定し、次年度に発表予定である。本研究は、より基礎的には人間の能力と、深層学習を代表とする人工知能の能力が実時間で結合することを意味する。これは、従来のコンピュータと人間とのインタラクションを拡張する研究パラダイムとしてhuman-computer integrationあるいはhuman-AI integrationと呼んでいる。本研究パラダイムにつき、IEEE InTech2020, MIRU2020などで招待講演を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
サイレントボイスインタラクションの研究は計画通り進展している。本年度は、超音波イメージング以外の手法や、視線を併用したマルチモーダルインタラクションへの展開があり、当初の計画以上の進展であると言える。
|
今後の研究の推進方策 |
次年度は、今年度は、サイレントボイスの学習効率や頑強性を高めるためのニューラルネットの構造改善、超音波イメージング以外の手法によるサイレントボイスの可能性についても研究を進め、より実用性の高いインタラクションが可能となるようにする。またサイレントボイスに関わるデータセットの整備を行う。
|