研究課題/領域番号 |
21K11941
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 日本工業大学 |
研究代表者 |
大田 健紘 日本工業大学, 基幹工学部, 助教 (50511911)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
|
キーワード | 無発声音声認識 / 音素 / 深層学習 / 音声認識 / 機械学習 / 生体情報 / センサ技術 |
研究開始時の研究の概要 |
本研究は、音声を用いることなく発話内容を認識するための技術を確立し、それを実用化することを目標としている。そのためには口の形や動きなどを定量化するためのセンサ技術を明らかにし、より実用的な認識技術とするために、ヒトの自然な発話動作や発話中の身体の動作に対しても頑健な特徴量を明らかにする。 本研究の成果は,喉頭がんなどの原因により後天的に発声が困難になった人々に対して発声を補助するデバイスの開発や、雑音・残響がひどい環境での音声認識、会話におけるプライバシー保護、さらには防犯など幅広い分野への応用が期待できる。
|
研究実績の概要 |
本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術(以降、無発声音声認識)について検討する。本研究では、声帯を除去するなど発声が困難となった人の発話を補助することや、既存の音声認識を補助することを目的としている。令和3年度には、正面以外の様々な方向を向いた状態での無発声音声認識や複数のセンサーを利用した無発声音声認識を実現する手法を検討した。そして、令和4年度は、「無発声音声認識を実用的なものとするために、文章での認識の可能性について検討すること」を目的として研究を行った。令和3年度に構築した無発声音声認識システムは単語単位での認識であったため、令和4年度は連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにする。 令和4年度の成果は以下の通りである。連続音声認識でも用いられている深層ニューラルネットワークとしてDeepSpeech2を採用した。ただし、無発声音声認識に適用するにあたり、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。ただし、認識結果の詳細を確認したところ、単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和4年度の目的は、無発声音声認識を実用的なものとするために、文章での認識の可能性について検討することであった。この目的に対して、連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにした。令和3年度は筋電位やサーモグラフィーなども用いたが、音素単位での認識は計算量が増えることが考えられるため、可視光カメラからの動画像のみを用いて検討した。 連続音声認識でも用いられている深層ニューラルネットワーク(DeepSpeech2)をもとに、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。 これに加え、令和4年度は少ないデータ数で高精度な音声合成品質を実現するために、tacotron2とwaveglow及び転移学習を用いた音声合成システムを利用する環境を整えた。 以上より、令和4年度に実施予定の研究は遂行できており、令和5年度に向けた検討も進められているため、おおむね順調に進展していると評価した。
|
今後の研究の推進方策 |
令和4年度は無発声音声認識を通常の音声認識と同様に音素単位での認識を可能とすることを目的としていた。未知話者であっても約30%の誤差率で無発声音声認識を実現できた。ただし、認識対象の単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。これは、学習に用いた発話の種類が少ないことが考えられる。通常、音声認識では音素バランス文など、出現する音素(列)に偏りのない文章を発話させて、認識システムを構築する。 そのため、令和5年度は、無発声音声認識においても音素バランス文を用いて、学習用データを作成する。また、現時点の無発声音声認識システムには言語モデルが導入されていないため、それを導入する。音声合成との融合に関しては、tacotron2とwaveglow及び転移学習を用いた音声合成システムを検討する。そして、話者の感情に合わせた合成音声の作成を目指すため、画像や皮膚抵抗などの非侵襲な方法による話者の感情推定を検討する。 以上の検討を行うことで、無発声による発話内容の推定から、感情を考慮した音声合成までを、可視光カメラ及び皮膚抵抗計測用センサにより実現が可能となる。ただし、小型のデバイスでリアルタイムに実行するためには計算量の削減やデータ容量の削減などの検討が必要であり、適宜実施する。
|