2019 Fiscal Year Annual Research Report

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

Research Project

Project/Area Number	17H01977
Research Institution	University of Yamanashi
Principal Investigator	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
Co-Investigator(Kenkyū-buntansha)	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501) 山本一公中部大学, 工学部, 准教授 (40324230) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	技術伝承 / 音声認識 / 雑音除去 / 高齢者音声 / 実環境 / ノウハウ質問応答
Outline of Annual Research Achievements	製造業等において，映像と音声で収録した作業手順を記録し，そこから作業の手順書作成までを支援する技術伝承システムの開発を目的とする。2019年度には以下の研究内容を実施した。【内容1】2017～2018年度に構築した作業記録および手順書作成システムのプロトタイプの被験者による評価実験において，音声認識の低さが大きな問題となったため，2019年度でも音声認識技術の改善を進めた。得られる雑音が既知環境であるという情報を用いることで，雑音除去が高精度にできると考え，この手法を研究した。提案手法によって，既存技術と比べて多くのデータを必要とせず，かつ自動生成したデータから雑音を除去できるようになった。工場内の比較的大きな雑音環境下の音声においても，音声認識精度を20％改善することができた。【内容2】技術者は高齢者が多く，高齢者の音声認識精度が低いという問題がある。そこで，2019年度では高齢者の音声を正確に認識するモデルの構築を目指して高齢者音声データベースを構築した。さらに，新しい枠組みでの音声認識手法を考案し，実装した。さらに話し言葉音声認識のための言語モデリングを考案した。音声実験を行った結果，高齢者音声に対して大きな音声認識性能の改善を得た。【内容3】作業者は決まっていることが多いため，実用的に音声認識性能を向上させるために、少量の音声で効率的に音響モデルを適応化する手法について研究を行った。【内容4】ノウハウが記載されたWebページにおいて，ノウハウ質問応答事例の作成が容易であることを示すとともに，作成したノウハウ質問応答事例を訓練事例として近年注目されている深層学習モデルであるBERTを学習し，ノウハウの機械読解モデルの評価を行うことができた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2019年度は特に音声認識の課題に注力した。この課題とは，工場内や屋外での音声には大きな雑音が含まれており音声認識が難しいこと，技術者が高齢者で音声認識が難しいことである。まず，雑音環境下での音声認識においては，極小の雑音から，深層学習を用いて雑音環境適用モデルを学習する方法を考案した。雑音を含む音声から除去をすると，音声も歪んでしまい人間には聞きやすくはなるが音声認識精度が悪化することがある。これを回避するための雑音除去モデルを学習することで，音声を聞きやすくするとともに音声認識精度も改善できた。この成果は，2019年12月の音声言語シンポジウム等で発表を行った。さらに，高齢者音声認識問題においては，高齢者音声データベースの構築や，これを用いた高齢者音声認識モデル学習手法を考案した。これらについても，2019年9月と2020年3月の日本音響学会，査読付き国際会議（O-COCOSDA）において研究発表を行った。加えて，音声認識モデルの学習をより簡単にするためのツールとしてExKaldiの開発を行った（2019年12月の音声言語シンポジウム）。さらに，プロトタイプシステム上で音声認識を使う際に，別途サーバを構築するのが必要であったが，音声認識をスタンドアロンで，かつ高速に動作するように改良した。この成果については，2020年秋の学会で発表を行う予定である。以上のように，着実に研究が進捗し成果を会議などで発表していることから，研究の進捗は順調であると言える。しかし，雑音環境下での音声認識が想定より困難であることが分かった。また，高齢者音声認識も，特に自由な発話になるほど困難であった。このように，項目によっては計画以上に進捗しているものと，遅れているものがある。全体的に見れば，成果を確実に対外発表・論文投稿できていることから，おおむね順調に進展しているものと考えている。
Strategy for Future Research Activity	2020年度は次の項目１～項目４を実施する予定である。【項目１】これまでに作業記録および手順書作成システムのプロトタイプシステムを構築している。これまでに開発した音声言語処理技術を組込み，システムを完成させる予定である。また，工場以外にも，例えば農作業などのノウハウの保存・蓄積などでも評価を行っていく予定である。【項目２】雑音環境下での音声認識技術の研究を推進する。本研究の問題点は，雑音環境下（特に0dB以下）における高精度な音声認識の実現である。雑音のほうが音声よりも大きい環境下においての音声認識は困難を極めるが，雑音が既知であるという情報を利用することとで高品質な雑音除去手法を開発する。加えて，End-to-End音声認識で使われるCTCという損失関数を用いることで，音声認識精度を絶対的に高める方法を開発していく。高齢者の音声認識においても，これまで読み上げ音声を中心に収録し実験をしてきたが，自由な話し言葉に対応するために，話し言葉/書き言葉，一般成人/高齢者に関する条件Aware学習による高齢者話し言葉モデルを構築する。また，雑音に頑健な音響特徴量を用いる等により，ターゲットとする環境における音声認識をより頑健に行えるようにする。【項目3】話題分類のさらに先の技術として，技術のノウハウを掲載するWebサイトを自動同定し，その結果に対して，ノウハウを記述するページを同定するとともに，ノウハウ記述テキストを利用してノウハウ質問応答を行うモデルを開発する。これにより，作業者が記録し忘れたノウハウを，後から発掘することができるようになる。【項目４】開発した各要素技術は，国内外の音声・言語処理関連の学会で逐次発表する。

Research Products
(13 results)

All 2020 2019 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results, Open Access: 1 results) Presentation (8 results) Remarks (1 results)

[Journal Article] E2E Streaming Speech Recognition Using CTC and Local Attention2020
- Author(s)
  Jiahao Chen, Ryota Nishimura, Norihide Kitaoka
- Journal Title
  
  Proceedings of the 2020 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing
  
  Volume: - Pages: 1-4
- Peer Reviewed
[Journal Article] A New Corpus of Elderly Japanese Speech for Acoustic Modeling, and a Preliminary Investigation of Dialect-Dependent Speech Recognition2019
- Author(s)
  Meiko Fukuda, Ryota Nishimura, Hiromitsu Nishizaki, Yurie Iribe, Norihide Kitaoka
- Journal Title
  
  Proceedings of the 22nd Conference of the Oriental COCOSDA (International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques
  
  Volume: - Pages: 1-6
- DOI
  10.1109/O-COCOSDA46868.2019.9041216
- Peer Reviewed
[Journal Article] Audio Classification of Bit-Representation Waveform2019
- Author(s)
  Masaki Okawa, Takuya Saito, Naoki Sawada, Hiromitsu Nishizaki
- Journal Title
  
  Proceedings of the 20th Annual Conference of the International Speech Communicationn Association
  
  Volume: - Pages: 2553-2557
- DOI
  0.21437/Interspeech.2019-1855
- Peer Reviewed / Open Access
[Journal Article] Signal Classification with Deep Learning2019
- Author(s)
  Hiromitsu Nishizaki, Kohji Makino
- Journal Title
  
  Proceedings of the 2019 IEEE International Conference on Sensors and Nanotechnolog
  
  Volume: - Pages: 81-84
- DOI
  10.1109/SENSORSNANO44414.2019.8940077
- Peer Reviewed
[Presentation] ウェブ上のコラムページを情報源とする回答不可能なノウハウ質問応答事例の作成2020
- Author(s)
  陳騰揚, 前田竜冶, 李宏宇, 銭澤長, 宇津呂武仁, 河田容英
- Organizer
  言語処理学会第26回年次大会論文集
[Presentation] Uni-directional LSTM と Local Attentionを用いたストリーミング音声認識2020
- Author(s)
  陳家浩，西村良太，北岡教英
- Organizer
  日本音響学会2020年春季研究発表会講演論文集
[Presentation] 書き言葉から話し言葉へのテキスト変換を用いた話し言葉音声認識用言語モデルの評価2020
- Author(s)
  小橋優矢，西村良太，北岡教英
- Organizer
  日本音響学会2020年春季研究発表会講演論文集
[Presentation] 高齢者音声コーパス構築と音声認識への年齢・方言の影響の分析2020
- Author(s)
  福田芽衣子，西崎博光，入部百合絵，西村良太，北岡教英
- Organizer
  日本音響学会2020年春季研究発表会講演論文集
[Presentation] Development and Evaluation of Kaldi Extension Tools with Python2019
- Author(s)
  Yu Wang, Hiromitsu Nishizaki , Akio Kobayashi , Takehito Utsuro, Chee Siang Leow
- Organizer
  第21回音声言語シンポジウム（音声言語情報処理研究会）
[Presentation] Speech Recognition-based Evaluation of a Noise Reduction Method in Known-Noise Environment2019
- Author(s)
  Chee Siang Leow , Hiromitsu Nishizaki , Akio Kobayashi , Takehito Utsuro
- Organizer
  第21回音声言語シンポジウム（音声言語情報処理研究会）
[Presentation] 既知の工場環境音を用いた深層学習に基づく工作機械雑音除去の検討2019
- Author(s)
  レオチーシャン，西崎博光
- Organizer
  日本音響学会2019年秋季研究発表会講演論文集
[Presentation] 高齢者音声認識のための音声コーパス構築と方言への適応の効果2019
- Author(s)
  福田芽衣子，西村良太，西崎博光，入部百合絵，北岡教英
- Organizer
  日本音響学会2019年秋季研究発表会講演論文集
[Remarks] 2019年度の研究成果一覧
- URL
  https://www.alps-lab.org/?page_id=37

2019 Fiscal Year Annual Research Report

音声処理・言語処理技術を用いた作業記録・手順書作成方式に基づく技術伝承システム

Principal Investigator

西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)

Current Status of Research Progress

Reason

Research Products

[Journal Article] E2E Streaming Speech Recognition Using CTC and Local Attention2020

Author(s)

Journal Title

[Journal Article] A New Corpus of Elderly Japanese Speech for Acoustic Modeling, and a Preliminary Investigation of Dialect-Dependent Speech Recognition2019

Author(s)

Journal Title

DOI

[Journal Article] Audio Classification of Bit-Representation Waveform2019

Author(s)

Journal Title

DOI

[Journal Article] Signal Classification with Deep Learning2019

Author(s)

Journal Title

DOI

[Presentation] ウェブ上のコラムページを情報源とする回答不可能なノウハウ質問応答事例の作成2020

Author(s)

Organizer

[Presentation] Uni-directional LSTM と Local Attentionを用いたストリーミング音声認識2020

Author(s)

Organizer

[Presentation] 書き言葉から話し言葉へのテキスト変換を用いた話し言葉音声認識用言語モデルの評価2020

Author(s)

Organizer

[Presentation] 高齢者音声コーパス構築と音声認識への年齢・方言の影響の分析2020

Author(s)

Organizer

[Presentation] Development and Evaluation of Kaldi Extension Tools with Python2019

Author(s)

Organizer

[Presentation] Speech Recognition-based Evaluation of a Noise Reduction Method in Known-Noise Environment2019

Author(s)

Organizer

[Presentation] 既知の工場環境音を用いた深層学習に基づく工作機械雑音除去の検討2019

Author(s)

Organizer

[Presentation] 高齢者音声認識のための音声コーパス構築と方言への適応の効果2019

Author(s)

Organizer

[Remarks] 2019年度の研究成果一覧

URL

西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)