研究領域 | 人間機械共生社会を目指した対話知能システム学 |
研究課題/領域番号 |
20H05558
|
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
キーワード | 音声対話 / 接客訓練 / 音声認識 / 音声評価 / 流暢さの判定 / 敬語 / リアルタイム音声認識 |
研究実績の概要 |
本研究の目的は接客訓練のための音声対話システム基盤の構築と評価である。2020年度は,音声対話管理基盤技術と音声評価基盤に取り組んだ。 【音声対話管理基盤】 音声認識基盤として,既存の音声認識システム Kaldi を改良し,リアルタイム入力で動作する音声認識基盤を整備した。これまでの対話システムでは,Google音声認識やMicrosoftの音声認識APIを使っていたが,発話内容のドメインが不一致のときに認識率が悪い,敬語などの特殊な言い回しの認識ができない,フィラーが上手く認識できないという問題があった。高い音声認識が得られることで知られるKalidを改良し,訓練対話に耐えうるリアルタイム音声認識基盤を整えた。このリアルタイム音声認識を評価したところ,遅延なく一定の精度で音声認識が実現でき,対話システムで利用できることが分かった。しかし,依然音声認識誤りも多いため,音響モデルの改良が必要であることも分かった。次に,対話管理基盤の開発として,接客訓練シナリオを用意し,そのシナリオに沿って顧客エージェントとの対話を進める接客訓練音声対話システムのプロトタイプを構築した。簡単な接客訓練シナリオを作成し,被験者に訓練システムを使ってもらったところ,接客の様子が再現されており,有用性を明らかにした。しかし,接客が上達したのかどうかの評価は行っておらず,今後はこれを明らかにする必要がある。 【音声評価基盤】 音声から受ける印象は接客評価では重要なポイントとなる。そのため,音声の流暢さなどの音声印象評価を行う枠組みを開発した。音声の流暢さ評価においては,その評価に有用そうな音響特徴量を抽出することができ,概ね60%程度の判定ができるようになった。また,敬語の使い方の評価方法の開発,シナリオ全体を通しての接客評価(対応のスムーズさ,等)を評価し,訓練者にフィードバックする方法を検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は,概ね順調に推進している。その根拠は,実施計画に掲げていた内容を概ね実行でき,査読付き国際会議で発表(あるいは現在投稿中)できたからである。詳細を以下に述べる。 まず,音声認識基盤として,既存の音声認識システム Kaldi を改良し,リアルタイムで動作する音声認識基盤を構築した。具体的には,KaldiシステムをPython言語でラッピングツールを開発し,そのツールにリアルタイム音声認識機能を追加した。これにより,これまで作業が大変であった,音響モデリング,言語モデリング,音声認識処理をPythonコードで簡単に実現できるようになった。このツールは,「ExKaldi-RT」という名前で,Githubを通じて全世界に公開している。本成果は,国際会議IEEE GCCE2020で発表したところ,Paper Awardを受賞した。加えて,現在,音声処理系の世界最高峰の国際会議であるINTERSPEECH2021に投稿中である。 次に,対話管理基盤の開発として,接客訓練シナリオを用意し,そのシナリオに沿って顧客エージェントとの対話を進める接客訓練音声対話システムのプロトタイプシステムを開発した。簡単な接客訓練シナリオを作成し,接客経験のある被験者に対する被験者実験を行った。これに関しても,国際会議APSIPA ASC2020において研究発表を行った。 最後に,音声から受ける印象は接客では重要なポイントとなるため,音声の流暢さなどの音声印象評価を行う枠組みを検討した。具体的に音声から得られる音響的・韻律的・言語的な特徴量を精査し,どのような特徴が話し方の流暢さに影響を与えるのかを調査した。その結果,言い直しや言いよどみ,話速が特に重要な因子になりうることが分かった。この成果についても,国際会議ICASSP2020で発表を行い,最終的な成果をINTERSPEECH2021にも投稿した。
|
今後の研究の推進方策 |
本研究の目的は接客訓練のための音声対話システム基盤の構築と評価である。これを実現するため,(1)音声対話管理基盤,(2)音声評価基盤,(3)訓練対話システムの有用性検証を実施していく。2021年度は,昨年度に続き(1)および(2)を実施していくが,2020年度の成果を用いて(3)について取り組む予定である。 【項目(1)】まず,音声認識基盤として,既存の音声認識システム Kaldi を改良し,リアルタイムマイク入力で動作する音声認識基盤を,2020年度に続いて整備する。2020年度に開発したものは,インストールが困難であるため,広く普及させていくためには,扱いやすいPython言語のみで操作できるように改良予定である。加えて,広く使っていただけるように,このソースコードも公開する予定である。また,対話管理基盤の開発として,接客訓練シナリオを用意し,そのシナリオに沿って顧客エージェントとの対話を進める対話管理基盤を構築する。 【項目(2)】音声から受ける印象は接客評価では重要なポイントとなる。そのため,音声の流暢さなどの音声印象評価を行う枠組みを2021年に続き,引き続き開発する。また,2020年度で検討・開発したシナリオ全体を通しての接客評価(対応のスムーズさ,等)の仕組みを使って,訓練者にフィードバックするモジュールを開発する。加えて,研究協力者が開発した敬語訓練モジュールを組込み,接客訓練音声対話基盤を構築する。 【項目(3)】開発した音声対話システムを用いて,接客業経験者等を被験者に招き,接客の有効性を検証していく。 【成果のとりまとめ・発表】各項目で開発した各要素技術は,国内外の音声・言語処理関連の学会で逐次発表していく予定である。また,一定の成果がまとまり次第,学術誌に投稿していく。
|