複数センサの融合による発声動作からの発話内容の推定と発声補助デバイスへの応用
Project/Area Number |
21K11941
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nippon Institute of Technology |
Principal Investigator |
大田 健紘 日本工業大学, 基幹工学部, 助教 (50511911)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 無発声音声認識 / 音素 / 深層学習 / 音声認識 / 機械学習 / 生体情報 / センサ技術 |
Outline of Research at the Start |
本研究は、音声を用いることなく発話内容を認識するための技術を確立し、それを実用化することを目標としている。そのためには口の形や動きなどを定量化するためのセンサ技術を明らかにし、より実用的な認識技術とするために、ヒトの自然な発話動作や発話中の身体の動作に対しても頑健な特徴量を明らかにする。 本研究の成果は,喉頭がんなどの原因により後天的に発声が困難になった人々に対して発声を補助するデバイスの開発や、雑音・残響がひどい環境での音声認識、会話におけるプライバシー保護、さらには防犯など幅広い分野への応用が期待できる。
|
Outline of Annual Research Achievements |
本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術(以降、無発声音声認識)について検討する。本研究では、声帯を除去するなど発声が困難となった人の発話を補助することや、既存の音声認識を補助することを目的としている。令和3年度には、正面以外の様々な方向を向いた状態での無発声音声認識や複数のセンサーを利用した無発声音声認識を実現する手法を検討した。そして、令和4年度は、「無発声音声認識を実用的なものとするために、文章での認識の可能性について検討すること」を目的として研究を行った。令和3年度に構築した無発声音声認識システムは単語単位での認識であったため、令和4年度は連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにする。 令和4年度の成果は以下の通りである。連続音声認識でも用いられている深層ニューラルネットワークとしてDeepSpeech2を採用した。ただし、無発声音声認識に適用するにあたり、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。ただし、認識結果の詳細を確認したところ、単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和4年度の目的は、無発声音声認識を実用的なものとするために、文章での認識の可能性について検討することであった。この目的に対して、連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにした。令和3年度は筋電位やサーモグラフィーなども用いたが、音素単位での認識は計算量が増えることが考えられるため、可視光カメラからの動画像のみを用いて検討した。 連続音声認識でも用いられている深層ニューラルネットワーク(DeepSpeech2)をもとに、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。 これに加え、令和4年度は少ないデータ数で高精度な音声合成品質を実現するために、tacotron2とwaveglow及び転移学習を用いた音声合成システムを利用する環境を整えた。 以上より、令和4年度に実施予定の研究は遂行できており、令和5年度に向けた検討も進められているため、おおむね順調に進展していると評価した。
|
Strategy for Future Research Activity |
令和4年度は無発声音声認識を通常の音声認識と同様に音素単位での認識を可能とすることを目的としていた。未知話者であっても約30%の誤差率で無発声音声認識を実現できた。ただし、認識対象の単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。これは、学習に用いた発話の種類が少ないことが考えられる。通常、音声認識では音素バランス文など、出現する音素(列)に偏りのない文章を発話させて、認識システムを構築する。 そのため、令和5年度は、無発声音声認識においても音素バランス文を用いて、学習用データを作成する。また、現時点の無発声音声認識システムには言語モデルが導入されていないため、それを導入する。音声合成との融合に関しては、tacotron2とwaveglow及び転移学習を用いた音声合成システムを検討する。そして、話者の感情に合わせた合成音声の作成を目指すため、画像や皮膚抵抗などの非侵襲な方法による話者の感情推定を検討する。 以上の検討を行うことで、無発声による発話内容の推定から、感情を考慮した音声合成までを、可視光カメラ及び皮膚抵抗計測用センサにより実現が可能となる。ただし、小型のデバイスでリアルタイムに実行するためには計算量の削減やデータ容量の削減などの検討が必要であり、適宜実施する。
|
Report
(2 results)
Research Products
(3 results)