研究課題/領域番号 |
21K11941
|
研究機関 | 日本工業大学 |
研究代表者 |
大田 健紘 日本工業大学, 基幹工学部, 助教 (50511911)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 音声認識 / 機械学習 / 生体情報 |
研究実績の概要 |
本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術(以降、無発声音声認識)について検討する。 令和3年度の目的は、「無発声音声認識を実用的なものとするために、非接触センサにより口の動きを計測できる技術を確立し、接触センサと併用することで単語認識率を向上させる技術を明らかにする」ことであり、以下の研究を計画していた。非接触センサとして、可視光カメラ及びサーモグラフィーカメラを用い、カメラから得られた、動画像に対して人物照合などで用いられる顔特徴点(輪郭、唇、鼻、目、眉毛)を検出する。これらの顔特徴点のうち、唇のもののみを用いて無発声音声認識を行う。唇の特徴点のみを用いた場合の単語認識率及び、筋電位センサなどの接触センサと組み合わせた場合の単語認識率を算出し、特徴量を組み合わせることの有効性を明らかにする。 令和3年度の成果は以下の通りである。接触センサとして筋電位センサ、非接触センサとして可視光カメラ及びサーモグラフィーカメラを用いて得られたデータについて、組み合わせを変えて深層学習により単語認識モデルを学習した。そして、無発声音声認識に有効なセンサーデータの組み合わせを調査した。その結果、サーモグラフィーカメラのデータを含む組み合わせが認識に有効であることが示唆された。 さらには、令和4年度に向けて「より現実的な状況において無発声音声認識を実現するための特徴量を明らかにする。」ための基礎検討を行った。顔を正面に向けた状況だけではなく、様々な向きに顔を向けた状況でも無発声音声認識を実現するために顔の3Dモデルを作成し、それを用いて様々な向きに顔を向けた学習データを作成した。作成した学習データを用いて深層学習により単語認識モデルを作成することで、様々な方向へ顔を向けた状態であっても無発声音声認識を実現できる可能性が明らかになった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和3年度の目的は、非接触センサにより口の動きを計測できる技術を確立し、接触センサと併用することで単語認識率を向上させる技術を明らかにすることであった。この目的に対して、接触センサとして筋電位センサ、非接触センサとして可視光カメラ及びサーモグラフィーカメラを用いて得られたデータについて、少人数の話者に対してではあるが、無発声音声認識に有効なセンサーデータの組み合わせを調査した。さらには令和4年度に向けて、より現実的な状況において無発声音声認識を実現するための特徴量を明らかにするための基礎検討を行った。顔の3Dモデルをもとに様々な向きに顔を向けた単語認識モデルを深層学習により作成することで、より現実的な無発声音声認識を実現できる可能性を調査した。 以上より、令和3年度に実施予定の研究は遂行できており、令和4年度に向けた検討も進められているため、おおむね順調に進展していると評価した。
|
今後の研究の推進方策 |
令和3年度は無発声音声認識に対して、複数のセンサを組み合わせることの有効性を明らかにすることを目的としていた。ただし、音声認識の単位としては単語認識を中心に進めてきた。また、評価に用いた話者数が少人数であったため、適用できる状況は限定的であった。 そのため、令和4年度の当初の目的である「より現実的な状況において無発声音声認識を実現するための特徴量を明らかにする。」ことに加えて、令和4年度は話者数を増やしより広い範囲で適用できることを確認する。さらに、令和4年度は、単語単位の認識ではなく、令和3年度の成果をもとに文章での認識を可能とすることを目的に研究を進める。そのために、LipNetと呼ばれる機械読唇用モデルを日本語に適用することを検討する。 令和4年度に以上のことが実現できれば、令和5年度には計画通り、無発声音声認識用のデバイスの開発及び音声合成との融合を目指す。そのため、令和4年度内にセンサやデバイスの基礎的検討も随時行う予定である。
|
次年度使用額が生じた理由 |
令和3年度において新型コロナウイルスの感染拡大防止の観点から、全国大会や研究会などはオンライン開催となり、旅費支出が0であったことが次年度使用額が生じた理由である。 令和4年度においてもオンライン開催が主流になると考えられるため、令和4年度も旅費支出が0になる可能性がある。そこで、次年度使用額及び令和4年度に旅費支出として想定していた助成金については、令和4年度分として請求した助成金と合わせてGPUを搭載した計算能力の高いPCを購入する予定である。その理由は、令和4年度には文章での無発声音声認識に関する研究も予定しており、これまで以上に高い計算能力が必要となるためである。また、令和5年度に予定している発声補助デバイス開発に向けて、様々なセンサや小型の機械学習用のエッジデバイスなどを購入する。
|