2018 Fiscal Year Annual Research Report

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

Research Project

Project/Area Number	17H01977
Research Institution	University of Yamanashi
Principal Investigator	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
Co-Investigator(Kenkyū-buntansha)	北岡教英徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501) 山本一公中部大学, 工学部, 准教授 (40324230) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	技術伝承 / 音声認識 / 高齢者音声認識 / 雑音除去 / トピック分類
Outline of Annual Research Achievements	製造業等において，映像と音声で収録した作業手順を記録し，そこから作業の手順書作成までを支援する技術伝承システムの開発を目的とする。2018年度は以下の研究内容を実施した。【内容1】作業記録および手順書作成システムのプロトタイプの被験者による評価実験において，ユーザインタフェースの改良の余地や音声認識の低さが大きな問題となったため，2018年度では特に音声認識技術の改善を進めた。既にデノイジングオートエンコーダの開発を行っているが，音声認識の大きな改善が得られなかった。そこで，得られる雑音が既知環境であるという情報を用いることで，雑音除去が高精度にできると考え，この手法を研究した。提案手法によって，既存技術と比べて多くのデータを必要とせず，かつ自動生成したデータから雑音を除去できるようになった。【内容2】技術者は高齢者が多く，高齢者の音声認識精度が低いという問題がある。そこで，この問題に取り組んだ。2018年度では高齢者の音声を正確に認識するモデルの構築を目指して高齢者音声データベースを構築し，それに基づいた音響モデルで予備実験を行った結果，小さなデータとはいえ大きな認識性能の向上が得られることが分かった。【内容3】作業者は決まっていることが多いため，実用的に音声認識性能を向上させるために、少量の音声で効率的に音響モデルを適応化する手法について研究を行った。ガンマトーンフィルタバンクの特徴抽出部とLHUCによるネットワーク適応を併用することにより効率的に話者適応を行う手法を開発した。【内容4】類似作業をクラスタリングし，作業の体系化を行うことで手順書作成の支援を目指している。これを実現するための基盤技術としてトピック分類技術の研究を実施した。Webサジェストを用いて検索したウェブページ集合に対してトピックモデル(LDA)を適用することにより，話題の集約を行う方法を開発した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason プロトタイプシステムの開発に関しては，評価実験を含め，その成果をIEEEの査読付き国際会議（2018年10月）において学会発表することができた。しかしながら，被験者実験では音声認識の精度の低さが問題点として浮き彫りとなった。そこで，音声認識技術について，特に高齢者音声認識技術や，話者適応化技術を発展する方法を研究することで音声認識精度が改善できることを示した。これについても国内学会発表（2018年9月），査読付き国際会議（2018年10月），雑誌論文（2019年2月）などで発表している。また，トピック（話題）分類についても，国内会議（2019年3月），査読付き国際会議（2018年12月）に発表を行った。以上のように，着実に研究が進捗し，成果を（特に査読付きの）会議などで発表していることから，研究の進捗は順調であると言える。しかし，一方で，順調通りに進んでいない項目も存在する。例えば，雑音環境下での音声認識が想定より困難であることが分かった。本年度の成果で，ある程度の雑音対策は可能であるものの，音声認識率を大きく改善するには至っていない。本研究では工場内での音声発話を想定しており，実際の環境では機械音がとても大きい。そのため，話者の違いだけでなく環境や背景雑音の違いを検討した新しい環境適応手法や，雑音対策方法をさらに発展させなければならない。また，高齢者音声認識も，特に自由は発話になるほど困難であった。この理由を考察した結果，例えば発話スタイルの不一致の理由が考えられるため，2019年度はこれらの課題を解決する方法を研究する。このように，項目によっては計画以上に進捗しているものと，遅れているものがある。全体的に見れば，成果を確実に対外発表・論文投稿できていることから，おおむね順調に進展しているものと考えている。
Strategy for Future Research Activity	2019年度は次の項目１～項目４を実施する予定である。【項目１】これまでに作業記録および手順書作成システムのプロトタイプシステムを構築している。これまでの被験者実験で得た知見を中心に，さらにシステムの改良を進める計画である。技術者が使いやすい工夫や暗黙知を引き出す工夫を考案し，ユーザインタフェース上に施すことでシステムを改良していく。新たな被験者実験も視野に入れる。【項目２】雑音環境下での音声認識技術の研究を推進する。本研究の問題点は，雑音環境下（特に0dB以下）における高精度な音声認識の実現である。雑音のほうが音声よりも大きい環境下においての音声認識は困難を極めるが，雑音が既知であるという情報を利用することで，高品質な雑音除去手法を開発する。また，高齢者の音声認識においても，これまで読み上げ音声を収録し実験をしてきたが，自由な話し言葉に対応するために，話し言葉/書き言葉，一般成人/高齢者に関する条件Aware学習による高齢者話し言葉モデルを構築する。さらに，実環境における音声認識精度をより向上させるために、雑音適応についてより詳細に検討を行う。また，雑音に頑健な音響特徴量を用いる等により，ターゲットとする環境における音声認識をより頑健に行えるようにする。【項目3】話題分類のさらに先の技術として，技術のノウハウを掲載するWebサイトを自動同定し，その結果に対して，ノウハウを記述するページを同定するとともに，ノウハウ記述テキストを利用してノウハウ質問応答を行うモデルを開発する。これにより，作業者が記録し忘れたノウハウを，後から発掘することができるようになる。【項目４】開発した各要素技術は，国内外の音声・言語処理関連の学会で逐次発表する。

Research Products
(17 results)

All 2019 2018 Other

All Journal Article (6 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 6 results) Presentation (9 results) (of which Int'l Joint Research: 2 results) Remarks (1 results) Patent(Industrial Property Rights) (1 results)

[Journal Article] Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation2019
- Author(s)
  SEKI Hiroshi、YAMAMOTO Kazumasa、AKIBA Tomoyosi、NAKAGAWA Seiichi
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E102.D Pages: 364～374
- DOI
  10.1587/transinf.2018EDP7252
- Peer Reviewed
[Journal Article] A hybrid approach of knowledge-driven and data-driven reasoning for activity recognition in smart homes2019
- Author(s)
  Sukor Abdul Syafiq Abdull、Zakaria Ammar、Rahim Norasmadi Abdul、Kamarudin Latifah Munirah、Setchi Rossi、Nishizaki Hiromitsu
- Journal Title
  
  Journal of Intelligent & Fuzzy Systems
  
  Volume: 36 Pages: 4177～4188
- DOI
  10.3233/JIFS-169976
- Peer Reviewed / Int'l Joint Research
[Journal Article] Operation Verification of Deep Learning Applications on Small Computers2018
- Author(s)
  Nishizaki Hiromitsu、Leow Chee Siang、Makino Koji
- Journal Title
  
  IEEJ Transactions on Electronics, Information and Systems
  
  Volume: 138 Pages: 1108～1115
- DOI
  10.1541/ieejeiss.138.1108
- Peer Reviewed
[Journal Article] Rapid Speaker Adaptation of Neural Network Based Filterbank Layer for Automatic Speech Recognition2018
- Author(s)
  Seki Hiroshi、Yamamoto Kazumasa、Akiba Tomoyosi、Nakagawa Seiichi
- Journal Title
  
  Proceedings of the 2018 IEEE Spoken Language Technology Workshop
  
  Volume: - Pages: 574～580
- DOI
  10.1109/SLT.2018.8639648
- Peer Reviewed
[Journal Article] A Task Manual Creation Support System Using Automatic Speech Recognition2018
- Author(s)
  Leow Chee Siang、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 2018 IEEE 7th Global Conference on Consumer Electronics
  
  Volume: - Pages: 259～262
- DOI
  10.1109/GCCE.2018.8574796
- Peer Reviewed
[Journal Article] Construction of a Corpus for Elderly Japanese Speech Recognition2018
- Author(s)
  Fukuda Meiko、Nishizaki Hiromitsu、Nishimura Ryota、Iribe Yurie、Kitaoka Norihide
- Journal Title
  
  Proceedings of the 2018 IEEE 7th Global Conference on Consumer Electronics
  
  Volume: - Pages: 687～688
- DOI
  10.1109/GCCE.2018.8574795
- Peer Reviewed
[Presentation] Encoder-decoder ネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019
- Author(s)
  関博史, 山本一公, 秋葉友良, 中川聖一
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019
- Author(s)
  中嶋貫太, 関博史, 山本一公, 中川聖一
- Organizer
  電子情報通信学会2019年総合大会
[Presentation] ノウハウ質問応答におけるニューラル読解モデルの評価2019
- Author(s)
  山本航平，前田竜冶，陳騰揚，川畑修人，大川遥平，宇津呂武仁，河田容英
- Organizer
  言語処理学会第25回年次大会論文集
[Presentation] ノウハウサイト群のトピック閲覧インタフェース2019
- Author(s)
  川畑修人，大川遥平，牛文彬，趙辰，宇津呂武仁，河田容英
- Organizer
  第11回データ工学と情報マネジメントに関するフォーラム
[Presentation] ノウハウサイト群およびトピックモデルによる話題集約結果の閲覧インタフェース2018
- Author(s)
  川畑修人、牛文彬、宇津呂武仁、河田容英
- Organizer
  第32回人工知能学会全国大会
[Presentation] Construction of a Corpus of Elderly Japanese Speech for Analysis and Recognition2018
- Author(s)
  Norihide Kitaoka, Yurie Iribe, Hiromitsu Nishizaki
- Organizer
  The 11th International Conference on Language Resources and Evaluation (LREC2018)
- Int'l Joint Research
[Presentation] Identifying Tips Web Sites of a Specific Query based on Search Engine Suggests and the Topic Distribution2018
- Author(s)
  Yohei Ohkawa, Shuto Kawabata, Chen Zhao, Wenbin Niu, Youchao Lin, Takehito Utsuro, and Yasuhide Kawada
- Organizer
  The 3rd International Workshop on Application of Big Data for Computational Social Science
- Int'l Joint Research
[Presentation] 超高齢者の自然発話音声のための音声認識モデルの検討2018
- Author(s)
  下笠元暉，西崎博光，福田芽衣子，西村良太，北岡教英
- Organizer
  日本音響学会2018年秋季研究発表会
[Presentation] 正解音素推定器を用いた音素列からの単語変換器の検討2018
- Author(s)
  澤田直輝，西崎博光
- Organizer
  日本音響学会2018年秋季研究発表会
[Remarks] http://www.alps-lab.org/paper.html
[Patent(Industrial Property Rights)] 信号変換システム、特徴出力システム、機械学習システムおよび信号変換プログラム2019
- Inventor(s)
  西崎博光，澤田直輝
- Industrial Property Rights Holder
  国立大学法人山梨大学
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2019-020267

2018 Fiscal Year Annual Research Report

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

Principal Investigator

西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation2019

Author(s)

Journal Title

DOI

[Journal Article] A hybrid approach of knowledge-driven and data-driven reasoning for activity recognition in smart homes2019

Author(s)

Journal Title

DOI

[Journal Article] Operation Verification of Deep Learning Applications on Small Computers2018

Author(s)

Journal Title

DOI

[Journal Article] Rapid Speaker Adaptation of Neural Network Based Filterbank Layer for Automatic Speech Recognition2018

Author(s)

Journal Title

DOI

[Journal Article] A Task Manual Creation Support System Using Automatic Speech Recognition2018

Author(s)

Journal Title

DOI

[Journal Article] Construction of a Corpus for Elderly Japanese Speech Recognition2018

Author(s)

Journal Title

DOI

[Presentation] Encoder-decoder ネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019

Author(s)

Organizer

[Presentation] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019

Author(s)

Organizer

[Presentation] ノウハウ質問応答におけるニューラル読解モデルの評価2019

Author(s)

Organizer

[Presentation] ノウハウサイト群のトピック閲覧インタフェース2019

Author(s)

Organizer

[Presentation] ノウハウサイト群およびトピックモデルによる話題集約結果の閲覧インタフェース2018

Author(s)

Organizer

[Presentation] Construction of a Corpus of Elderly Japanese Speech for Analysis and Recognition2018

Author(s)

Organizer

[Presentation] Identifying Tips Web Sites of a Specific Query based on Search Engine Suggests and the Topic Distribution2018

Author(s)

Organizer

[Presentation] 超高齢者の自然発話音声のための音声認識モデルの検討2018

Author(s)

Organizer

[Presentation] 正解音素推定器を用いた音素列からの単語変換器の検討2018

Author(s)

Organizer

[Remarks] http://www.alps-lab.org/paper.html

[Patent(Industrial Property Rights)] 信号変換システム、特徴出力システム、機械学習システムおよび信号変換プログラム2019

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)