2018 年度実績報告書

劣悪条件下音声認識方式の設計とそのエナジーハーベスト化システムの開発

研究課題

研究課題/領域番号	18H03212
研究機関	北海道大学
研究代表者	宮永喜一北海道大学, 情報科学研究科, 教授 (20166185)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	音声認識システム / 音声情報処理 / エナジーハーベスト / 低消費電力技術 / 雑音ロバスト / ディジタル信号処理 / ハードウェア・ソフトウェア協調設計 / 回路とシステム
研究実績の概要	本研究は，4年間において，2つの環境（劣悪音響環境，サステナビリティ環境）に対して有効な音声認識LSIシステムを設計・開発し，そのフィールド実験を実施することで，実用性の高い音声認識・対話システムの実現を目指している。研究計画の前半2年間（2018年度及び2019年度）では，劣悪条件下における新しい音声認識技術の開発と実現を目指す。ここでは，新しい雑音ロバスト音声認識手法の開発と，同時に，低消費電力化のためのハードウエア・ソフトウエアの協調設計によるシステム設計を目指す。2018年度において，以下の研究成果が得られた。（1）雑音に埋もれた音声の分析技術の方式提案：　申請者がすでに開発している雑音ロバスト音声認識システムに，時変モデルの解析手法を導入した。これにより音声の特徴抽出精度を向上させ，音声のフレーム内分析を高精度化し，Missing Feature Theoryを拡張した。現在は，性能評価を進めている。（2）劣悪条件下での音声認識の方式提案：　雑音抑制・エコー除去手法とその動作条件を，子供，成人男女，高齢者などの発話者クラスタに対して最適化した。様々な観測環境や，エコー・雑音環境を想定し，異なる条件下において，最適解を得られるような雑音抑制手法の設計とその動作条件を求めた。これらの評価結果に基づくハードウエア・ソフトウエアの協調設計も並行して進めている。（3）誤認識動作を抑制する音声棄却の方式提案：　ケプストラム領域と時間領域での不要な信号・音・音声の特徴を抽出し，尤度検定による類似度を計算し，類似度の特性を複数の評価基準により多角的に評価し，不要な信号や非対象音声等を自動除去する音声棄却処理を提案・開発した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 2018年度における研究計画は，劣悪条件下における新しい音声認識技術の開発と実現，および，低消費電力化のための新技術（極低消費電力化アーキテクチャ）の開発である。ここでは，音声と非音声の区別を行う技術，雑音に埋もれた音声の特徴量を推定する技術，劣悪条件下での音声認識，誤認識動作を抑制する音声棄却を提案・実現すること。同時に，ハードウエア・ソフトウエアの協調設計によるシステム設計となっている。（1）雑音に埋もれた音声の分析技術の方式提案：　申請者が提案する時変モデルの解析手法を適応化し，音声の特徴抽出精度を向上させ，音声のフレーム内分析を高精度化した。性能評価は，現在も進めており，予定通りの研究進捗状況と考えている。（2）劣悪条件下での音声認識の方式提案：あらゆる条件に適応する雑音抑制手法の設計は現実的ではなく，想定される種々の条件下における最適な手法を設計することが重要となる。最初に，モジュレーションスペクトル上の雑音抑制・エコー除去手法とその動作条件を，子供，成人男女，高齢者などの発話者クラスタに対して最適化する。これらの結果は，複数の国際会議にすでに発表しており，高い評価を得ている。（3）誤認識動作を抑制する音声棄却の方式提案：　ケプストラム領域と時間領域での不要な信号・音・音声の特徴を抽出し，尤度検定による類似度を計算し，類似度の特性を複数の評価基準により多角的に評価し，不要な信号や非対象音声等を自動除去する音声棄却処理を設計・開発した。上記（1～3）の新技術の開発により，様々なエコー環境と，劣悪なSNR環境においても高い認識性能を実現した。これらの方式は，ハードウエア・ソフトウエアの協調設計によりシステム実現が進められており，予定された研究計画に沿って，おおむね順調に進展している。
今後の研究の推進方策	本研究は，4年間において，2つの環境（劣悪音響環境，サステナビリティ環境）に対して有効な音声認識LSIシステムを設計・開発し，そのフィールド実験を実施することで，実用性の高い音声認識・対話システムの実現を目指す。研究計画の前半2年間（2018年度及び2019年度）では，劣悪条件下における新しい音声認識技術の開発と実現を目指しており，新しい方式の提案・設計は完了している。2019年度では，その性能評価を行う予定。同時に，低消費電力化のためのハードウエア・ソフトウエアの協調設計によるシステム設計を完成させる。これらの基礎技術を確立した段階で，後半2年間では，低消費電力型LSIシステムの設計・開発とその消費電力評価を行い，2000フレーズの音声に対する高性能音声認識LSIを開発する。そのLSIを用いた音声認識・対話のソウトウエア・ハードウエアの協調設計によるシステム開発も行い，フィールドによる実証実験を実施する。ここでの対話モデルは，従来から導入実現されてきた意味ネットワークによる学習対話モデルを利用する。本研究開発で想定している対話は，家電・自動車などの装置に対して音声制御を行うタスク指向型のモデルとする。特に，ナチュラルエネルギーハーべスティング技術を導入し，新しい認識システムを実現する予定。当初の研究計画（第4項目）にある，次の新技術を開発する予定。（4）エナジーハーベストシステム指向認識システムの設計と開発：　処理の並列化によりクロック周波数は低減されるが，ゲート総数が増加するためにリーク電流による消費電力が増加する。そこで，少ないゲート数による高度な並列・パイプライン処理を実現可能とする動的アーキテクチャを新たに設計し，並列パイプライン処理による電力消費極小化システムの実現を目指す(ゲート数削減，クロック低減，リーク電流低減)

研究成果
(18件)

すべて 2019 2018 その他

すべて雑誌論文 (12件) (うち国際共著 4件、査読あり 12件、オープンアクセス 2件) 学会発表 (5件) (うち国際学会 1件、招待講演 1件) 備考 (1件)

[雑誌論文] Hierarchical-P Reference Picture Selection Based Error Resilient Video Coding Framework for High Efficiency Video Coding Transmission Applications2019
- 著者名/発表者名
  Maung Maung Htoo、Aramvith Supavadee、Miyanaga Yoshikazu
- 雑誌名
  
  Electronics
  
  巻: 8 ページ: 310～310
- DOI
  10.3390/electronics8030310
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Psychoacoustical Masking Effect based Feature Extraction for Robust Speech Recognition2019
- 著者名/発表者名
  Hay Mar Soe Naing, Risanuri Hidayat, Bondhan Winduratna and Yoshikazu Miyanaga
- 雑誌名
  
  International Journal of Innovative Computing, Information and Control (IJICIC)
  
  巻: 印刷中ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] An Architecture for Real-time Retinex-based Image Enhancement and Haze Removal and its FPGA Implementation2019
- 著者名/発表者名
  Dabwitso KASAUKA, Kenta SUGIYAMA, Hiroshi TSUTSUI, Hiroyuki OKUHATA, Yoshikazu MIYANAGA
- 雑誌名
  
  IEICE TRANS. FUNDAMENTALS
  
  巻: E102-A ページ: 印刷中
- 査読あり
[雑誌論文] Development of High Performance RF Modules Used in Real-time FHD Video Communication over 8x8 MIMO-OFDM System2018
- 著者名/発表者名
  Yoshikazu MIYANAGA, Hiroshi TSUTSUI, Junji YAMANO, Masaki MIURA, Tohru GOTOH, Takashi IMAGAWA
- 雑誌名
  
  Proceedings of 2018 International Symposium on Intelligent Signal Processing and Communication System, IEEE
  
  巻: 1 ページ: WA1B-4
- 査読あり
[雑誌論文] Development of Real-time FHD Loss-Less Video Communication over an 8x8 MIMO-OFDM System2018
- 著者名/発表者名
  Yoshikazu MIYANAGA, Hiroshi TSUTSUI, Junji YAMANO, Masaki MIURA, Tohru GOTOH, Takashi IMAGAWA
- 雑誌名
  
  Proceedings of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2018
  
  巻: 1 ページ: THA1-3
- 査読あり
[雑誌論文] An Evaluation of Keyword Detection Using ACF of Pitch for Robust Speech Recognition2018
- 著者名/発表者名
  Jiayue Tang, Yu Tian, Xiaonan Jiang, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Symposium on Communications and Information Technologies, IEEE
  
  巻: 1 ページ: 96-100
- 査読あり
[雑誌論文] Accuracy on Children's Speech Recognition under Noisy Circumstances2018
- 著者名/発表者名
  Yu Tian, Jiayue Tang, Xiaonan Jiang, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Symposium on Communications and Information Technologies, IEEE
  
  巻: 1 ページ: 101-104
- 査読あり
[雑誌論文] Robust Children Isolated Speech Recognition System Using RSA and RSF2018
- 著者名/発表者名
  Yu Tian, Jiayue Tang, Xiaonan Jiang, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Symposium on Multimedia and Communication Technology
  
  巻: 1 ページ: 113-116
- 査読あり
[雑誌論文] Keyword Detection Using F0-VAD in Robust Isolated Phase Recognition System2018
- 著者名/発表者名
  Jiayue Tang, Yu Tian, Xiaonan Jiang, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Symposium on Multimedia and Communication Technology
  
  巻: 1 ページ: 121-124
- 査読あり
[雑誌論文] An Evaluation of Entropy Coding Approaches in Block-Based Adaptive Lossless Image Coding Method for Embedded Systems2018
- 著者名/発表者名
  Yunako Katagishi, So Tsuyuguchi, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Symposium on Multimedia and Communication Technology
  
  巻: 1 ページ: 125-128
- 査読あり
[雑誌論文] Feature Reduction on Fuzzy SVM-Based Coding Unit Decision in HEVC2018
- 著者名/発表者名
  Ei Ei Tun, Supavadee Aramvith, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Conference on Engineering, Applied Sciences and Technology, IEEE
  
  巻: 1 ページ: 999-1002
- 査読あり / 国際共著
[雑誌論文] Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition2018
- 著者名/発表者名
  Hay Mar Soe Naing, Risanuri Hidayat, Bondhan Winduratna, Yoshikazu Miyanaga
- 雑誌名
  
  Proceedings of International Conference on Information Technology and Electrical Engineering
  
  巻: 1 ページ: 254-259
- 査読あり / 国際共著
[学会発表] 雑音にロバストな音声認識システムのためのランニングスペクトル分析を用いた自動音声区間検出2019
- 著者名/発表者名
  中越達也，早坂昇，筒井弘，宮永喜一
- 学会等名
  2019年電子情報通信学会総合大会
[学会発表] 製造ラインにおける状態報告ランプのWebカメラを用いた色判定システムの実験的評価2019
- 著者名/発表者名
  山田健太郎，筒井弘，須藤彰紘，宮永喜一
- 学会等名
  2019年電子情報通信学会総合大会
[学会発表] Noise Robust Speech Recognition for AI-ROBOT2018
- 著者名/発表者名
  Yoshikazu Miyanaga
- 学会等名
  International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology
- 国際学会 / 招待講演
[学会発表] 並列度可変なMin-Sum LDPC復号器とそのメモリバンクアクセススケジューリング手法2018
- 著者名/発表者名
  渡辺大詩, 筒井弘, 今川隆司, 宮永喜一
- 学会等名
  電子情報通信学会信学技報
[学会発表] Rejection criterion for keyword recognition system2018
- 著者名/発表者名
  Xiaonan Jiang, Tatsuya Nakagoshi, Jiayue Tang, Riku Takanashi, Yu Tian, Hiroshi Tsutsui, Yoshikazu Miyanaga
- 学会等名
  IEICE Technical Report
[備考] 北海道大学情報科学研究院情報科学専攻メディアネットワークコース情報通信ネットワーク研究室
- URL
  https://csw.ist.hokudai.ac.jp/

2018 年度 実績報告書

劣悪条件下音声認識方式の設計とそのエナジーハーベスト化システムの開発

研究代表者

宮永 喜一 北海道大学, 情報科学研究科, 教授 (20166185)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Hierarchical-P Reference Picture Selection Based Error Resilient Video Coding Framework for High Efficiency Video Coding Transmission Applications2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Psychoacoustical Masking Effect based Feature Extraction for Robust Speech Recognition2019

著者名/発表者名

雑誌名

[雑誌論文] An Architecture for Real-time Retinex-based Image Enhancement and Haze Removal and its FPGA Implementation2019

著者名/発表者名

雑誌名

[雑誌論文] Development of High Performance RF Modules Used in Real-time FHD Video Communication over 8x8 MIMO-OFDM System2018

著者名/発表者名

雑誌名

[雑誌論文] Development of Real-time FHD Loss-Less Video Communication over an 8x8 MIMO-OFDM System2018

著者名/発表者名

雑誌名

[雑誌論文] An Evaluation of Keyword Detection Using ACF of Pitch for Robust Speech Recognition2018

著者名/発表者名

雑誌名

[雑誌論文] Accuracy on Children's Speech Recognition under Noisy Circumstances2018

著者名/発表者名

雑誌名

[雑誌論文] Robust Children Isolated Speech Recognition System Using RSA and RSF2018

著者名/発表者名

雑誌名

[雑誌論文] Keyword Detection Using F0-VAD in Robust Isolated Phase Recognition System2018

著者名/発表者名

雑誌名

[雑誌論文] An Evaluation of Entropy Coding Approaches in Block-Based Adaptive Lossless Image Coding Method for Embedded Systems2018

著者名/発表者名

雑誌名

[雑誌論文] Feature Reduction on Fuzzy SVM-Based Coding Unit Decision in HEVC2018

著者名/発表者名

雑誌名

[雑誌論文] Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition2018

著者名/発表者名

雑誌名

[学会発表] 雑音にロバストな音声認識システムのためのランニングスペクトル分析を用いた自動音声区間検出2019

著者名/発表者名

学会等名

[学会発表] 製造ラインにおける状態報告ランプのWebカメラを用いた色判定システムの実験的評価2019

著者名/発表者名

学会等名

[学会発表] Noise Robust Speech Recognition for AI-ROBOT2018

著者名/発表者名

学会等名

[学会発表] 並列度可変なMin-Sum LDPC復号器とそのメモリバンクアクセススケジューリング手法2018

著者名/発表者名

学会等名

[学会発表] Rejection criterion for keyword recognition system2018

著者名/発表者名

学会等名

[備考] 北海道大学情報科学研究院情報科学専攻メディアネットワークコース情報通信ネットワーク研究室

URL

2018 年度実績報告書

宮永喜一北海道大学, 情報科学研究科, 教授 (20166185)