研究課題/領域番号 |
17H01977
|
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
研究分担者 |
北岡 教英 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10333501)
山本 一公 中部大学, 工学部, 准教授 (40324230)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | 技術伝承 / 音声認識 / 高齢者音声認識 / 雑音除去 / トピック分類 |
研究実績の概要 |
製造業等において,映像と音声で収録した作業手順を記録し,そこから作業の手順書作成までを支援する技術伝承システムの開発を目的とする。2018年度は以下の研究内容を実施した。 【内容1】作業記録および手順書作成システムのプロトタイプの被験者による評価実験において,ユーザインタフェースの改良の余地や音声認識の低さが大きな問題となったため,2018年度では特に音声認識技術の改善を進めた。既にデノイジングオートエンコーダの開発を行っているが,音声認識の大きな改善が得られなかった。そこで,得られる雑音が既知環境であるという情報を用いることで,雑音除去が高精度にできると考え,この手法を研究した。提案手法によって,既存技術と比べて多くのデータを必要とせず,かつ自動生成したデータから雑音を除去できるようになった。 【内容2】技術者は高齢者が多く,高齢者の音声認識精度が低いという問題がある。そこで,この問題に取り組んだ。2018年度では高齢者の音声を正確に認識するモデルの構築を目指して高齢者音声データベースを構築し,それに基づいた音響モデルで予備実験を行った結果,小さなデータとはいえ大きな認識性能の向上が得られることが分かった。 【内容3】作業者は決まっていることが多いため,実用的に音声認識性能を向上させるために、少量の音声で効率的に音響モデルを適応化する手法について研究を行った。ガンマトーンフィルタバンクの特徴抽出部とLHUCによるネットワーク適応を併用することにより効率的に話者適応を行う手法を開発した。 【内容4】類似作業をクラスタリングし,作業の体系化を行うことで手順書作成の支援を目指している。これを実現するための基盤技術としてトピック分類技術の研究を実施した。Webサジェストを用いて検索したウェブページ集合に対してトピックモデル(LDA)を適用することにより,話題の集約を行う方法を開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
プロトタイプシステムの開発に関しては,評価実験を含め,その成果をIEEEの査読付き国際会議(2018年10月)において学会発表することができた。しかしながら,被験者実験では音声認識の精度の低さが問題点として浮き彫りとなった。そこで,音声認識技術について,特に高齢者音声認識技術や,話者適応化技術を発展する方法を研究することで音声認識精度が改善できることを示した。これについても国内学会発表(2018年9月),査読付き国際会議(2018年10月),雑誌論文(2019年2月)などで発表している。また,トピック(話題)分類についても,国内会議(2019年3月),査読付き国際会議(2018年12月)に発表を行った。以上のように,着実に研究が進捗し,成果を(特に査読付きの)会議などで発表していることから,研究の進捗は順調であると言える。 しかし,一方で,順調通りに進んでいない項目も存在する。例えば,雑音環境下での音声認識が想定より困難であることが分かった。本年度の成果で,ある程度の雑音対策は可能であるものの,音声認識率を大きく改善するには至っていない。本研究では工場内での音声発話を想定しており,実際の環境では機械音がとても大きい。そのため,話者の違いだけでなく環境や背景雑音の違いを検討した新しい環境適応手法や,雑音対策方法をさらに発展させなければならない。また,高齢者音声認識も,特に自由は発話になるほど困難であった。この理由を考察した結果,例えば発話スタイルの不一致の理由が考えられるため,2019年度はこれらの課題を解決する方法を研究する。 このように,項目によっては計画以上に進捗しているものと,遅れているものがある。全体的に見れば,成果を確実に対外発表・論文投稿できていることから, おおむね順調に進展しているものと考えている。
|
今後の研究の推進方策 |
2019年度は次の項目1~項目4を実施する予定である。 【項目1】これまでに作業記録および手順書作成システムのプロトタイプシステムを構築している。これまでの被験者実験で得た知見を中心に,さらにシステムの改良を進める計画である。技術者が使いやすい工夫や暗黙知を引き出す工夫を考案し,ユーザインタフェース上に施すことでシステムを改良していく。新たな被験者実験も視野に入れる。 【項目2】雑音環境下での音声認識技術の研究を推進する。本研究の問題点は,雑音環境下(特に0dB以下)における高精度な音声認識の実現である。雑音のほうが音声よりも大きい環境下においての音声認識は困難を極めるが,雑音が既知であるという情報を利用することで,高品質な雑音除去手法を開発する。また,高齢者の音声認識においても,これまで読み上げ音声を収録し実験をしてきたが,自由な話し言葉に対応するために,話し言葉/書き言葉,一般成人/高齢者に関する条件Aware学習による高齢者話し言葉モデルを構築する。さらに,実環境における音声認識精度をより向上させるために、雑音適応についてより詳細に検討を行う。また,雑音に頑健な音響特徴量を用いる等により,ターゲットとする環境における音声認識をより頑健に行えるようにする。 【項目3】話題分類のさらに先の技術として,技術のノウハウを掲載するWebサイトを自動同定し,その結果に対して,ノウハウを記述するページを同定するとともに,ノウハウ記述テキストを利用してノウハウ質問応答を行うモデルを開発する。これにより,作業者が記録し忘れたノウハウを,後から発掘することができるようになる。 【項目4】開発した各要素技術は,国内外の音声・言語処理関連の学会で逐次発表する。
|