研究課題/領域番号 |
18H03212
|
研究機関 | 北海道大学 |
研究代表者 |
宮永 喜一 北海道大学, 情報科学研究院, 教授 (20166185)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 音声認識システム / 音声情報処理 / エナジーハーベスト / 低消費電力技術 / 雑音ロバスト / ディジタル信号処理 / ハードウェア・ソフトウェア協調設計 / 回路とシステム |
研究実績の概要 |
本研究は,4年間において,2つの環境(劣悪音響環境,サステナビリティ環境)に対して有効な音声認識LSIシステムを設計・開発し,そのフィールド実験を実施することで,実用性の高い音声認識・対話システムの実現を目指している。 研究計画の前半2年間(2018年度及び2019年度)では,劣悪条件下における新しい音声認識技術の設計・開発・実現を行った。新しい雑音ロバスト音声認識手法の開発と,同時に,低消費電力化のためのハードウエア・ソフトウエアの協調設計によるシステム設計を実施した。2019年度において,以下の研究成果が得られた。 (1)雑音に埋もれた音声の分析技術の方式提案: 申請者がすでに開発している雑音ロバスト音声認識システムに,時変モデルの解析手法を導入した。さらに,聴覚心理学理論に基づき,新しく設計提案している動的なマスキング現象をモデル化し,音声の特徴分析精度を向上させ,Missing Feature Theoryを拡張した。 (2)劣悪条件下での音声認識の方式提案: 雑音抑制・エコー除去手法とその動作条件を,子供,成人男女,高齢者などの発話者クラスタに対して最適化した。様々な観測環境や,エコー・雑音環境を想定し,異なる条件下において,最適解を得られるような雑音抑制手法の設計とその動作条件を求めた。これらの評価結果に基づくハードウエア・ソフトウエアの協調設計を実施した。 (3)誤認識動作を抑制する音声棄却の方式提案: ケプストラム領域と時間領域での不要な信号・音・音声の特徴を抽出し,尤度検定による類似度を計算し,類似度の特性を複数の評価基準により多角的に評価し,不要な信号や非対象音声等を自動除去する音声棄却処理を提案・開発し,その性能評価を行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2019年度における研究計画は,劣悪条件下における新しい音声認識技術の開発と実現,および,低消費電力化のための新技術(極低消費電力化アーキテクチャ)の開発である。ここでは,音声と非音声の区別を行う技術,雑音に埋もれた音声の特徴量を推定する技術,劣悪条件下での音声認識,誤認識動作を抑制する音声棄却を提案・実現すること。同時に,ハードウエア・ソフトウエアの協調設計によるシステム設計となっている。 (1)雑音に埋もれた音声の分析技術の方式提案: 申請者が提案する時変モデルの解析手法を導入し,さらに,聴覚心理学理論に基づく新しいマスキングモデルを設計・開発し,音声の特徴抽出精度を向上さた。これらの成果は,国際会議・ジャーナル論文として公表済み。 (2)劣悪条件下での音声認識の方式提案:あらゆる条件に適応する雑音抑制手法の設計は現実的ではなく,想定される種々の条件下における最適な手法を設計することが重要となる。雑音抑制・エコー除去手法とその動作条件を,子供,成人男女,高齢者などの発話者クラスタに対して最適化した。これらの成果も,複数の国際会議にすでに発表した。 (3)誤認識動作を抑制する音声棄却の方式提案: ケプストラム領域と時間領域での不要な信号・音・音声の特徴を抽出し,尤度検定による類似度を計算し,類似度の特性を複数の評価基準により多角的に評価し,不要な信号や非対象音声等を自動除去する音声棄却処理を設計・開発した。現在は,その性能評価を継続して実施し,高性能化を目指している。 上記(1~3)の新技術の開発により,様々なエコー環境と,劣悪なSNR環境においても高い認識性能を実現した。これらの方式は,ハードウエア・ソフトウエアの協調設計によりシステム実現を進めており,予定された研究計画に沿って,おおむね順調に進展している。
|
今後の研究の推進方策 |
本研究は,2つの環境(劣悪音響環境,サステナビリティ環境)に対して有効な音声認識LSIシステムを設計・開発し,そのフィールド実験を実施することで,実用性の高い音声認識・対話システムの実現を目指す。 研究計画の前半2年間(2018年度及び2019年度)では,劣悪条件下における新しい音声認識技術の開発と実現を目指しており,新しい方式の提案・設計は完了している。2019年度において,その性能評価を実施した。並行して,低消費電力化のためのハードウエア・ソフトウエアの協調設計によるシステム設計を行った。 後半2年間(2020年度及び2021年度)では,低消費電力型LSIシステムの設計・開発とその消費電力評価を行い,2000フレーズの音声に対する高性能音声認識LSIをFPGA上において実現する。そのLSIを用いた音声認識・対話のソウトウエア・ハードウエアの協調設計によるシステム開発も行い,フィールドによる実証実験を実施する。ここでの対話モデルは,ディープニューラルネットワークなどによる学習対話モデルを利用する。本研究開発で想定している対話は,家電・自動車などの装置に対して音声制御を行うタスク指向型のモデルとする。特に,ナチュラルエナジーハーべスティング技術を導入し,極低消費電力技術を用いた認識システムを実現する予定。そこでは,申請が提案する申請書の研究計画(第4項目)にある,次の新技術を開発する予定。 (4)エナジーハーベストシステム指向認識システムの設計と開発: 処理の並列化によりクロック周波数は低減されるが,ゲート総数が増加するためにリーク電流による消費電力が増加する。そこで,少ないゲート数による高度な並列・パイプライン処理を実現可能とする動的アーキテクチャを新たに設計し,並列パイプライン処理による電力消費極小化システムの実現を目指す(ゲート数削減,クロック低減,リーク電流低減)。
|