研究課題/領域番号 |
17H01977
|
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
研究分担者 |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
山本 一公 中部大学, 工学部, 准教授 (40324230)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | 技術伝承 / 音声認識 / 雑音除去 / 高齢者音声 / 実環境 / ノウハウ質問応答 |
研究実績の概要 |
製造業等において,映像と音声で収録した作業手順を記録し,そこから作業の手順書作成までを支援する技術伝承システムの開発を目的とする。2019年度には以下の研究内容を実施した。 【内容1】2017~2018年度に構築した作業記録および手順書作成システムのプロトタイプの被験者による評価実験において,音声認識の低さが大きな問題となったため,2019年度でも音声認識技術の改善を進めた。得られる雑音が既知環境であるという情報を用いることで,雑音除去が高精度にできると考え,この手法を研究した。提案手法によって,既存技術と比べて多くのデータを必要とせず,かつ自動生成したデータから雑音を除去できるようになった。工場内の比較的大きな雑音環境下の音声においても,音声認識精度を20%改善することができた。 【内容2】技術者は高齢者が多く,高齢者の音声認識精度が低いという問題がある。そこで,2019年度では高齢者の音声を正確に認識するモデルの構築を目指して高齢者音声データベースを構築した。さらに,新しい枠組みでの音声認識手法を考案し,実装した。さらに話し言葉音声認識のための言語モデリングを考案した。音声実験を行った結果,高齢者音声に対して大きな音声認識性能の改善を得た。 【内容3】作業者は決まっていることが多いため,実用的に音声認識性能を向上させるために、少量の音声で効率的に音響モデルを適応化する手法について研究を行った。 【内容4】ノウハウが記載されたWebページにおいて,ノウハウ質問応答事例の作成が容易であることを示すとともに,作成したノウハウ質問応答事例を訓練事例として近年注目されている深層学習モデルであるBERTを学習し,ノウハウの機械読解モデルの評価を行うことができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2019年度は特に音声認識の課題に注力した。この課題とは,工場内や屋外での音声には大きな雑音が含まれており音声認識が難しいこと,技術者が高齢者で音声認識が難しいことである。まず,雑音環境下での音声認識においては,極小の雑音から,深層学習を用いて雑音環境適用モデルを学習する方法を考案した。雑音を含む音声から除去をすると,音声も歪んでしまい人間には聞きやすくはなるが音声認識精度が悪化することがある。これを回避するための雑音除去モデルを学習することで,音声を聞きやすくするとともに音声認識精度も改善できた。この成果は,2019年12月の音声言語シンポジウム等で発表を行った。さらに,高齢者音声認識問題においては,高齢者音声データベースの構築や,これを用いた高齢者音声認識モデル学習手法を考案した。これらについても,2019年9月と2020年3月の日本音響学会,査読付き国際会議(O-COCOSDA)において研究発表を行った。加えて,音声認識モデルの学習をより簡単にするためのツールとしてExKaldiの開発を行った(2019年12月の音声言語シンポジウム)。さらに,プロトタイプシステム上で音声認識を使う際に,別途サーバを構築するのが必要であったが,音声認識をスタンドアロンで,かつ高速に動作するように改良した。この成果については,2020年秋の学会で発表を行う予定である。以上のように,着実に研究が進捗し成果を会議などで発表していることから,研究の進捗は順調であると言える。 しかし,雑音環境下での音声認識が想定より困難であることが分かった。また,高齢者音声認識も,特に自由な発話になるほど困難であった。このように,項目によっては計画以上に進捗しているものと,遅れているものがある。全体的に見れば,成果を確実に対外発表・論文投稿できていることから, おおむね順調に進展しているものと考えている。
|
今後の研究の推進方策 |
2020年度は次の項目1~項目4を実施する予定である。 【項目1】これまでに作業記録および手順書作成システムのプロトタイプシステムを構築している。これまでに開発した音声言語処理技術を組込み,システムを完成させる予定である。また,工場以外にも,例えば農作業などのノウハウの保存・蓄積などでも評価を行っていく予定である。 【項目2】雑音環境下での音声認識技術の研究を推進する。本研究の問題点は,雑音環境下(特に0dB以下)における高精度な音声認識の実現である。雑音のほうが音声よりも大きい環境下においての音声認識は困難を極めるが,雑音が既知であるという情報を利用することとで高品質な雑音除去手法を開発する。加えて,End-to-End音声認識で使われるCTCという損失関数を用いることで,音声認識精度を絶対的に高める方法を開発していく。高齢者の音声認識においても,これまで読み上げ音声を中心に収録し実験をしてきたが,自由な話し言葉に対応するために,話し言葉/書き言葉,一般成人/高齢者に関する条件Aware学習による高齢者話し言葉モデルを構築する。また,雑音に頑健な音響特徴量を用いる等により,ターゲットとする環境における音声認識をより頑健に行えるようにする。 【項目3】話題分類のさらに先の技術として,技術のノウハウを掲載するWebサイトを自動同定し,その結果に対して,ノウハウを記述するページを同定するとともに,ノウハウ記述テキストを利用してノウハウ質問応答を行うモデルを開発する。これにより,作業者が記録し忘れたノウハウを,後から発掘することができるようになる。 【項目4】開発した各要素技術は,国内外の音声・言語処理関連の学会で逐次発表する。
|