2018 Fiscal Year Annual Research Report
階層的End-to-Endモデルに基づく音声対話における心的状態推定に関する研究
Project/Area Number |
18J22864
|
Research Institution | Kyoto University |
Principal Investigator |
稲熊 寛文 京都大学, 情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | 音声認識 / Acoustic-to-word / End-to-End音声認識 / 言語モデル / 未知語問題 |
Outline of Annual Research Achievements |
近年,従来の複雑なモジュール分割が必要であったハイブリッド音声認識に迫る精度を達成しているEnd-to-End音声認識モデルを拡張し,単語単位で直接認識を行うAcoustic-to-Word (A2W)モデルで高い精度を達成した.A2Wモデルの問題点として,データスパースネス(各単語に割り当てられるデータ量が少ない)と未知語問題(語彙が限られているため認識できない単語が存在する)というものがある.前者は,文字レベルの認識タスクと同時にモデル全体を最適化するマルチタスク学習によって改善した.後者に関しては,単語レベルでの認識時に未知語が認識された場合に文字レベルの仮説を参照することで,事実上未知語問題を解決した. 一方で,A2Wモデルは語彙内の各単語に出力確率を割り当てるので,認識時に同音異義語などの音が似ている単語を誤って認識してしまうという問題がある.解決策として文らしさを表す確率を考慮する言語モデルの統合が考えられるが,言語モデルの語彙はA2Wモデルの語彙に制限されるので,単純に統合するだけでは従来のような大きな改善は見られなかった.そこでモデルの出力を分析したところ,言語モデルを統合することで,モデルが認識を誤りやすい低頻出語が未知語クラスにより多く割り当てられ,認識される未知語の数が増えるという現象を確認した.これらの増加した未知語を文字レベルの仮説で補完することで,英語音声会話コーパスおよび日本語音声認識コーパスにおいて認識精度の改善を確認した.これらは選択する語彙のサイズに非常に頑健であり,認識スピードもリアルタイムより速いことも示した.これらの研究成果は2018年12月にギリシャ・アテネで開催されたIEEE Workshop on Spoken Language Technology (SLT2018)で発表した.その他に,多言語音声認識・翻訳にも取り組んだ.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の研究計画を大きく上回る成果をあげることができた.最初の1年で単語レベルの音声認識を達成しただけでなく,従来のモデルを認識精度・スピードで大きく上回り,実運用できるレベルにまで発展している.
|
Strategy for Future Research Activity |
従来の音声認識では,認識される各文はそれぞれ独立に扱われ,その意味・内容は考慮されていなかった. しかし,人間は文脈によって言葉を使い分け,文の意味を理解している. これは特に同音異義語などで顕著である. 一方,単語レベルの音声認識の長所として,音声から直接単語レベルでの依存関係をモデル化できるという点が挙げられる. そこで,この性質を利用し,文脈を考慮した音声認識技術の開発を目指す.
|