研究課題/領域番号 |
19K12027
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 中部大学 |
研究代表者 |
山本 一公 中部大学, 工学部, 教授 (40324230)
|
研究分担者 |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | 音声認識 / 音響モデル / 深層学習 / モデル単位 / 音響クラスタリング / 多言語 / マルチタスク学習 / End-to-End / 音素モデル / 単音モデル / クラスタリング |
研究開始時の研究の概要 |
深層学習の導入により自動音声認識技術は大きく発展し、実用化のステージに入ってきた。しかしながら、英語音声認識と比べて日本語音声認識性能が低いのが現状である。この原因のひとつとして、言語に適した音響モデル単位が使われていないことがあると考えられる。 そこで、本提案研究では、音響モデル単位を最新の深層学習技術を用いて自動獲得することによって日本語音声認識の性能を向上させることを目的とする。具体的には、従来の自動音響モデル単位獲得と深層学習の組み合わせによる高精度化と、多言語単音モデルの日本語音素への自動マッピングを基礎として、これらの組み合わせにより、より良い音響モデル単位の獲得を目指す。
|
研究成果の概要 |
本研究では、日本語音声認識の性能向上のために、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指した。研究は「(1)深層学習を用いたクラスタリングによるモデル単位自動獲得」と「(2)多言語単音モデル群による単音-音素マッピングの曖昧さ解消」に分かれている。(1)では、DNN-HMM音響モデルにおいて、従来の文脈依存音素クラスタリングでは得られない状態クラスタリングにより、認識精度を向上させることができた。(2)では、多言語同時音声認識において、言語別の音素モデル単位よりも、話者や言語の違いを吸収するような音響モデリングを行うことで、音声認識精度が改善することが分かった。
|
研究成果の学術的意義や社会的意義 |
最近の深層学習技術の発展により、自動音声認識の性能は大きく向上し、音声AIアシスタントの入力インタフェースとして広く実用化されるに至った。しかしながら、英語音声認識と比べて日本語音声認識はやや性能が悪く、英語圏に比べて日本語の音声入力システムの活用頻度が低い理由のひとつとなっていると考えられる。本研究では、日本語音声認識システムの基本的な性能向上を目指すことが学術的な意義であり、ディジタルディバイドの影響を受けやすい高齢者に対しても高い音声認識精度を持つ音声入力システムを提供できるようになることが社会的な意義である。
|