研究課題
音声認識は、コンピュータと人間の重要なインタラクション手段として利用できるようになったが、公共環境では他者の迷惑になったり、会話の秘匿性が担保できないなど利用環境に制限があった。有声ではなく発話を認識することができれば、インタラクション手段や発声困難者の会話支援技術として大きな可能性がある。今年度は、昨年度までに実施した各種のセンサーによるサイレント発話認識に加え、視線情報と口唇映像を融合するマルチモーダルインタラクション手法を提案・実現した。視線により認識すべきコマンドの語彙を制約することで、より高精度な発話認識を可能にする。また、視線インタフェースにおいて意図せざるコマンドの起動(ミダスタッチ問題)をサイレントスピーチをトリガーとすることで解決できる。本研究成果は、視線インタラクションの国際学会ETRA 2021にて発表した。また、whisper voiceの深層学習による認識機構、whisper voice と通常の有声発話を弁別するインタフェースを提案・実現した。whisper voiceはサイレントスピーチに準ずる秘匿性・静寂性を持ち、通常のマイクロフォンでも認識可能であるなど有望な特徴を持つ。さらに、通常音声とwhisper voiceを区別することで、音声認識の訂正コマンドをwhisper voiceで発話するなどのマルチモード発話が可能になる。この研究成果はCHI2022で次年度に発表する予定である。本研究課題は、より根源的には人間の能力と人工知能の能力が実時間で結合することを意味する。これを従来のコンピュータと人間とのインタラクションを拡張する研究パラダイムとしてhumancomputer integrationあるいはhuman-AI integrationとし提唱し、CEDEC2021等での基調講演を通じて発信を行った。
令和3年度が最終年度であるため、記入しない。
すべて 2022 2021
すべて 雑誌論文 (5件) (うち国際共著 3件、 査読あり 5件) 学会・シンポジウム開催 (1件)
Proceedings of the ACM on Human-Computer Interaction
巻: - ページ: 1-5
10.1145/3491102.3502015
巻: 5 ページ: 1~24
10.1145/3459744
ETRA21 ACM Symposium on Eye Tracking Research and Applications
巻: - ページ: 1-6
10.1145/3448018.3458011
巻: - ページ: 1-3
10.1145/3411763.3441354
UIST '21: The Adjunct Publication of the 34th Annual ACM Symposium on User Interface Software and Technology
巻: - ページ: 44-46
10.1145/3474349.3480225