2021 Fiscal Year Annual Research Report
Research on Silent interaction with deep neural networks
Project/Area Number |
19H04148
|
Research Institution | The University of Tokyo |
Principal Investigator |
暦本 純一 東京大学, 大学院情報学環・学際情報学府, 教授 (20463896)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 人間拡張 / ヒューマンコンピュータインタラクション / サイレントスピーチ / ウィスパースピーチ / Human-AI-Integration / 深層学習 |
Outline of Annual Research Achievements |
音声認識は、コンピュータと人間の重要なインタラクション手段として利用できるようになったが、公共環境では他者の迷惑になったり、会話の秘匿性が担保できないなど利用環境に制限があった。有声ではなく発話を認識することができれば、インタラクション手段や発声困難者の会話支援技術として大きな可能性がある。今年度は、昨年度までに実施した各種のセンサーによるサイレント発話認識に加え、視線情報と口唇映像を融合するマルチモーダルインタラクション手法を提案・実現した。視線により認識すべきコマンドの語彙を制約することで、より高精度な発話認識を可能にする。また、視線インタフェースにおいて意図せざるコマンドの起動(ミダスタッチ問題)をサイレントスピーチをトリガーとすることで解決できる。本研究成果は、視線インタラクションの国際学会ETRA 2021にて発表した。また、whisper voiceの深層学習による認識機構、whisper voice と通常の有声発話を弁別するインタフェースを提案・実現した。whisper voiceはサイレントスピーチに準ずる秘匿性・静寂性を持ち、通常のマイクロフォンでも認識可能であるなど有望な特徴を持つ。さらに、通常音声とwhisper voiceを区別することで、音声認識の訂正コマンドをwhisper voiceで発話するなどのマルチモード発話が可能になる。この研究成果はCHI2022で次年度に発表する予定である。本研究課題は、より根源的には人間の能力と人工知能の能力が実時間で結合することを意味する。これを従来のコンピュータと人間とのインタラクションを拡張する研究パラダイムとしてhumancomputer integrationあるいはhuman-AI integrationとし提唱し、CEDEC2021等での基調講演を通じて発信を行った。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Research Products
(6 results)