2018 年度実績報告書

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

研究課題

研究課題/領域番号	17H01977
研究機関	山梨大学
研究代表者	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
研究分担者	北岡教英徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501) 山本一公中部大学, 工学部, 准教授 (40324230) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433)
研究期間 (年度)	2017-04-01 – 2021-03-31
キーワード	技術伝承 / 音声認識 / 高齢者音声認識 / 雑音除去 / トピック分類
研究実績の概要	製造業等において，映像と音声で収録した作業手順を記録し，そこから作業の手順書作成までを支援する技術伝承システムの開発を目的とする。2018年度は以下の研究内容を実施した。【内容1】作業記録および手順書作成システムのプロトタイプの被験者による評価実験において，ユーザインタフェースの改良の余地や音声認識の低さが大きな問題となったため，2018年度では特に音声認識技術の改善を進めた。既にデノイジングオートエンコーダの開発を行っているが，音声認識の大きな改善が得られなかった。そこで，得られる雑音が既知環境であるという情報を用いることで，雑音除去が高精度にできると考え，この手法を研究した。提案手法によって，既存技術と比べて多くのデータを必要とせず，かつ自動生成したデータから雑音を除去できるようになった。【内容2】技術者は高齢者が多く，高齢者の音声認識精度が低いという問題がある。そこで，この問題に取り組んだ。2018年度では高齢者の音声を正確に認識するモデルの構築を目指して高齢者音声データベースを構築し，それに基づいた音響モデルで予備実験を行った結果，小さなデータとはいえ大きな認識性能の向上が得られることが分かった。【内容3】作業者は決まっていることが多いため，実用的に音声認識性能を向上させるために、少量の音声で効率的に音響モデルを適応化する手法について研究を行った。ガンマトーンフィルタバンクの特徴抽出部とLHUCによるネットワーク適応を併用することにより効率的に話者適応を行う手法を開発した。【内容4】類似作業をクラスタリングし，作業の体系化を行うことで手順書作成の支援を目指している。これを実現するための基盤技術としてトピック分類技術の研究を実施した。Webサジェストを用いて検索したウェブページ集合に対してトピックモデル(LDA)を適用することにより，話題の集約を行う方法を開発した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由プロトタイプシステムの開発に関しては，評価実験を含め，その成果をIEEEの査読付き国際会議（2018年10月）において学会発表することができた。しかしながら，被験者実験では音声認識の精度の低さが問題点として浮き彫りとなった。そこで，音声認識技術について，特に高齢者音声認識技術や，話者適応化技術を発展する方法を研究することで音声認識精度が改善できることを示した。これについても国内学会発表（2018年9月），査読付き国際会議（2018年10月），雑誌論文（2019年2月）などで発表している。また，トピック（話題）分類についても，国内会議（2019年3月），査読付き国際会議（2018年12月）に発表を行った。以上のように，着実に研究が進捗し，成果を（特に査読付きの）会議などで発表していることから，研究の進捗は順調であると言える。しかし，一方で，順調通りに進んでいない項目も存在する。例えば，雑音環境下での音声認識が想定より困難であることが分かった。本年度の成果で，ある程度の雑音対策は可能であるものの，音声認識率を大きく改善するには至っていない。本研究では工場内での音声発話を想定しており，実際の環境では機械音がとても大きい。そのため，話者の違いだけでなく環境や背景雑音の違いを検討した新しい環境適応手法や，雑音対策方法をさらに発展させなければならない。また，高齢者音声認識も，特に自由は発話になるほど困難であった。この理由を考察した結果，例えば発話スタイルの不一致の理由が考えられるため，2019年度はこれらの課題を解決する方法を研究する。このように，項目によっては計画以上に進捗しているものと，遅れているものがある。全体的に見れば，成果を確実に対外発表・論文投稿できていることから，おおむね順調に進展しているものと考えている。
今後の研究の推進方策	2019年度は次の項目１～項目４を実施する予定である。【項目１】これまでに作業記録および手順書作成システムのプロトタイプシステムを構築している。これまでの被験者実験で得た知見を中心に，さらにシステムの改良を進める計画である。技術者が使いやすい工夫や暗黙知を引き出す工夫を考案し，ユーザインタフェース上に施すことでシステムを改良していく。新たな被験者実験も視野に入れる。【項目２】雑音環境下での音声認識技術の研究を推進する。本研究の問題点は，雑音環境下（特に0dB以下）における高精度な音声認識の実現である。雑音のほうが音声よりも大きい環境下においての音声認識は困難を極めるが，雑音が既知であるという情報を利用することで，高品質な雑音除去手法を開発する。また，高齢者の音声認識においても，これまで読み上げ音声を収録し実験をしてきたが，自由な話し言葉に対応するために，話し言葉/書き言葉，一般成人/高齢者に関する条件Aware学習による高齢者話し言葉モデルを構築する。さらに，実環境における音声認識精度をより向上させるために、雑音適応についてより詳細に検討を行う。また，雑音に頑健な音響特徴量を用いる等により，ターゲットとする環境における音声認識をより頑健に行えるようにする。【項目3】話題分類のさらに先の技術として，技術のノウハウを掲載するWebサイトを自動同定し，その結果に対して，ノウハウを記述するページを同定するとともに，ノウハウ記述テキストを利用してノウハウ質問応答を行うモデルを開発する。これにより，作業者が記録し忘れたノウハウを，後から発掘することができるようになる。【項目４】開発した各要素技術は，国内外の音声・言語処理関連の学会で逐次発表する。

研究成果
(17件)

すべて 2019 2018 その他

すべて雑誌論文 (6件) (うち国際共著 1件、査読あり 6件) 学会発表 (9件) (うち国際学会 2件) 備考 (1件) 産業財産権 (1件)

[雑誌論文] Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation2019
- 著者名/発表者名
  SEKI Hiroshi、YAMAMOTO Kazumasa、AKIBA Tomoyosi、NAKAGAWA Seiichi
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E102.D ページ: 364～374
- DOI
  10.1587/transinf.2018EDP7252
- 査読あり
[雑誌論文] A hybrid approach of knowledge-driven and data-driven reasoning for activity recognition in smart homes2019
- 著者名/発表者名
  Sukor Abdul Syafiq Abdull、Zakaria Ammar、Rahim Norasmadi Abdul、Kamarudin Latifah Munirah、Setchi Rossi、Nishizaki Hiromitsu
- 雑誌名
  
  Journal of Intelligent & Fuzzy Systems
  
  巻: 36 ページ: 4177～4188
- DOI
  10.3233/JIFS-169976
- 査読あり / 国際共著
[雑誌論文] Operation Verification of Deep Learning Applications on Small Computers2018
- 著者名/発表者名
  Nishizaki Hiromitsu、Leow Chee Siang、Makino Koji
- 雑誌名
  
  IEEJ Transactions on Electronics, Information and Systems
  
  巻: 138 ページ: 1108～1115
- DOI
  10.1541/ieejeiss.138.1108
- 査読あり
[雑誌論文] Rapid Speaker Adaptation of Neural Network Based Filterbank Layer for Automatic Speech Recognition2018
- 著者名/発表者名
  Seki Hiroshi、Yamamoto Kazumasa、Akiba Tomoyosi、Nakagawa Seiichi
- 雑誌名
  
  Proceedings of the 2018 IEEE Spoken Language Technology Workshop
  
  巻: - ページ: 574～580
- DOI
  10.1109/SLT.2018.8639648
- 査読あり
[雑誌論文] A Task Manual Creation Support System Using Automatic Speech Recognition2018
- 著者名/発表者名
  Leow Chee Siang、Nishizaki Hiromitsu
- 雑誌名
  
  Proceedings of the 2018 IEEE 7th Global Conference on Consumer Electronics
  
  巻: - ページ: 259～262
- DOI
  10.1109/GCCE.2018.8574796
- 査読あり
[雑誌論文] Construction of a Corpus for Elderly Japanese Speech Recognition2018
- 著者名/発表者名
  Fukuda Meiko、Nishizaki Hiromitsu、Nishimura Ryota、Iribe Yurie、Kitaoka Norihide
- 雑誌名
  
  Proceedings of the 2018 IEEE 7th Global Conference on Consumer Electronics
  
  巻: - ページ: 687～688
- DOI
  10.1109/GCCE.2018.8574795
- 査読あり
[学会発表] Encoder-decoder ネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019
- 著者名/発表者名
  関博史, 山本一公, 秋葉友良, 中川聖一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019
- 著者名/発表者名
  中嶋貫太, 関博史, 山本一公, 中川聖一
- 学会等名
  電子情報通信学会2019年総合大会
[学会発表] ノウハウ質問応答におけるニューラル読解モデルの評価2019
- 著者名/発表者名
  山本航平，前田竜冶，陳騰揚，川畑修人，大川遥平，宇津呂武仁，河田容英
- 学会等名
  言語処理学会第25回年次大会論文集
[学会発表] ノウハウサイト群のトピック閲覧インタフェース2019
- 著者名/発表者名
  川畑修人，大川遥平，牛文彬，趙辰，宇津呂武仁，河田容英
- 学会等名
  第11回データ工学と情報マネジメントに関するフォーラム
[学会発表] ノウハウサイト群およびトピックモデルによる話題集約結果の閲覧インタフェース2018
- 著者名/発表者名
  川畑修人、牛文彬、宇津呂武仁、河田容英
- 学会等名
  第32回人工知能学会全国大会
[学会発表] Construction of a Corpus of Elderly Japanese Speech for Analysis and Recognition2018
- 著者名/発表者名
  Norihide Kitaoka, Yurie Iribe, Hiromitsu Nishizaki
- 学会等名
  The 11th International Conference on Language Resources and Evaluation (LREC2018)
- 国際学会
[学会発表] Identifying Tips Web Sites of a Specific Query based on Search Engine Suggests and the Topic Distribution2018
- 著者名/発表者名
  Yohei Ohkawa, Shuto Kawabata, Chen Zhao, Wenbin Niu, Youchao Lin, Takehito Utsuro, and Yasuhide Kawada
- 学会等名
  The 3rd International Workshop on Application of Big Data for Computational Social Science
- 国際学会
[学会発表] 超高齢者の自然発話音声のための音声認識モデルの検討2018
- 著者名/発表者名
  下笠元暉，西崎博光，福田芽衣子，西村良太，北岡教英
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] 正解音素推定器を用いた音素列からの単語変換器の検討2018
- 著者名/発表者名
  澤田直輝，西崎博光
- 学会等名
  日本音響学会2018年秋季研究発表会
[備考] http://www.alps-lab.org/paper.html
[産業財産権] 信号変換システム、特徴出力システム、機械学習システムおよび信号変換プログラム2019
- 発明者名
  西崎博光，澤田直輝
- 権利者名
  国立大学法人山梨大学
- 産業財産権種類
  特許
- 産業財産権番号
  特願2019-020267

2018 年度 実績報告書

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

研究代表者

西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] A hybrid approach of knowledge-driven and data-driven reasoning for activity recognition in smart homes2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Operation Verification of Deep Learning Applications on Small Computers2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Rapid Speaker Adaptation of Neural Network Based Filterbank Layer for Automatic Speech Recognition2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] A Task Manual Creation Support System Using Automatic Speech Recognition2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Construction of a Corpus for Elderly Japanese Speech Recognition2018

著者名/発表者名

雑誌名

DOI

[学会発表] Encoder-decoder ネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019

著者名/発表者名

学会等名

[学会発表] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019

著者名/発表者名

学会等名

[学会発表] ノウハウ質問応答におけるニューラル読解モデルの評価2019

著者名/発表者名

学会等名

[学会発表] ノウハウサイト群のトピック閲覧インタフェース2019

著者名/発表者名

学会等名

[学会発表] ノウハウサイト群およびトピックモデルによる話題集約結果の閲覧インタフェース2018

著者名/発表者名

学会等名

[学会発表] Construction of a Corpus of Elderly Japanese Speech for Analysis and Recognition2018

著者名/発表者名

学会等名

[学会発表] Identifying Tips Web Sites of a Specific Query based on Search Engine Suggests and the Topic Distribution2018

著者名/発表者名

学会等名

[学会発表] 超高齢者の自然発話音声のための音声認識モデルの検討2018

著者名/発表者名

学会等名

[学会発表] 正解音素推定器を用いた音素列からの単語変換器の検討2018

著者名/発表者名

学会等名

[備考] http://www.alps-lab.org/paper.html

[産業財産権] 信号変換システム、特徴出力システム、機械学習システムおよび信号変換プログラム2019

発明者名

権利者名

産業財産権種類

産業財産権番号

2018 年度実績報告書

西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)