研究課題/領域番号 |
21K11941
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 日本工業大学 |
研究代表者 |
大田 健紘 日本工業大学, 基幹工学部, 助教 (50511911)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
|
キーワード | 深層学習 / 無発声音声認識 / 三次元計測 / 音素 / 音声認識 / 機械学習 / 生体情報 / センサ技術 |
研究開始時の研究の概要 |
本研究は、音声を用いることなく発話内容を認識するための技術を確立し、それを実用化することを目標としている。そのためには口の形や動きなどを定量化するためのセンサ技術を明らかにし、より実用的な認識技術とするために、ヒトの自然な発話動作や発話中の身体の動作に対しても頑健な特徴量を明らかにする。 本研究の成果は,喉頭がんなどの原因により後天的に発声が困難になった人々に対して発声を補助するデバイスの開発や、雑音・残響がひどい環境での音声認識、会話におけるプライバシー保護、さらには防犯など幅広い分野への応用が期待できる。
|
研究実績の概要 |
最終年度は、前年度までの成果をもとに、主に音声情報を用いない音声認識(無発声音声認識)であっても音声を用いた音声認識と同様に日本語文の認識を実現する手法を検討した。また、発声補助デバイス開発の基礎検討として、話者の感情推定及びテキストからの音声合成についても取り組んだ。 無発声音声認識については音素を単位として文章を認識するために、前年度の成果をもとに認識に有効な深層ニューラルネットワーク(DNN)について検討した。DNNの汎化性能を向上させることで、学習に用いた文章ではあるが未知の話者であっても0.3程度の音素誤り率が得られることがあった。話者の感情推定についてはカメラにより撮影した映像から心拍変動を計測する映像脈波計測技術及び皮膚電気反応を組み合わせた手法について検討した。音声合成については、tacotron2とwaveglow及び転移学習を用いた音声合成システムを用いて合成された音声の音質、話者性、明瞭性について検討した。ただし、感情推定及び音声合成については十分なデータでの検証ができていないため、引き続き、データ収集及び性能の検証が必要である。 本研究では、研究期間全体を通して声帯を除去するなど発声が困難となった人の発話の補助や、既存の音声認識を補助するシステムの検討を目的とした。結果として、音声を用いることなく音素単位での文章認識を実現するための技術について検討ができた。また、発声補助デバイスとして実現することを考えた場合、スマートフォンなどの小型デバイスに搭載されているカメラに加えて、指の皮膚電気抵抗を計測するセンサを搭載することで、利用者の負担となることなく、発話内容及び感情を同時推定するための基礎検証ができた。
|