研究課題/領域番号 |
21K12611
|
研究機関 | 岩手県立大学 |
研究代表者 |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
研究分担者 |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
松原 雅文 岩手県立大学, ソフトウェア情報学部, 准教授 (70363728)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 少資源音声 / 音声検索 / 方言音声 |
研究実績の概要 |
これまで英語や日本語のように音声データやその書き起こしデータ(音声言語資源と呼ぶ)が豊富な言語に対して音声認識の研究等が盛んに行われてきた。方言音声やスワヒリ語のような音声言語資源が少ない(少資源と呼ぶ)あるいは全くない(ゼロ資源と呼ぶ)音声に対して、音声認識システムを構築することはできないのが現状であるが、単語やフレーズの発見や検索等の音声処理ができれば、理解への手助けやテロ予防など様々な展開が可能になる。 そこで本研究では、日本語方言音声やゼロ・少資源言語に対して、高精度・高速・低容量で実現する検索システムの開発と、その応用システムの開発を目指す。まず日本語方言音声に対しての高精度・高速・低容量の検索技術の確立を目的とした。 本年度はこの目的のもと、第1ステップとして、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進した。具体的には、遠野地域の方言音声は書き起こしテキストのない少資源の音声言語であるため、遠野の語り部の方言音声を対象とした。この遠野方言音声に対して、音声言語体系の異なる標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの音素/音節列と遠野音声の音素/音節列を照合する方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現することができた。また、ゼロ資源音声を念頭にして、キーワードを音声で与えられた場合の照合方式を研究開発し、音節などの深層学習モデルから出力されるフレームレベルの音節事後確率と、遠野方言音声のフレームレベルの音節事後確率を直接照合することによりキーワード検出をする方式を確認した上で、キーワードの検出精度を高める方式を現在研究開発中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題では、日本語方言音声やゼロ・少資源言語に対して、高精度・高速・低容量で実現する検索システムの開発と、その応用システムの開発を目指し、まず日本語方言音声に対しての高精度・高速・低容量の検索技術の確立を推進することを目的として研究を開始した。 初年度から2年度目の第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進する。方言のように少資源音声に対して、従来手法に比べ、高精度でかつ高速、低容量の方言音声検索システムを実現することを目的としており、初年度である本年度は、遠野方言音声に対して、標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの音素/音節列と遠野音声の音素/音節列を照合する方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現でき、おおむね予定通りの進展と考える。さらに現在は、ゼロ資源音声を念頭にして、キーワードを音声で与えられた場合の照合方式を研究開発し、音節などの深層学習モデルから出力されるフレームレベルの音節事後確率と、遠野方言音声のフレームレベルの音節事後確率を直接照合することによりキーワード検出をする方式を確認した上で、キーワードの検出精度を高める方式を現在研究開発中であり、予定通りの進捗と考える。
|
今後の研究の推進方策 |
第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進し、方言のように少資源音声に対して、従来手法に比べ、高精度でかつ高速、低容量の方言音声検索システムを実現、具体的には高精度は8割の検出率、高速は10時間の音声データに対し1秒以内あるいは入力音声に対してリアルタイム処理可能、低容量は100MB以内を目標とした。 初年度は標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの検索方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現した。研究2年度は、これを発展させ、8割程度の高い検出精度、10時間の音声データに対し1秒以内あるいは入力音声に対してリアルタイム処理可能な高速性、必要メモリ量は100MB以内の低容量化を目標とし、これらの目標の実現のための研究開発を推進する。 研究3年度目以降は、方言の理解支援システムについて、上述の高精度・高速・低容量の方言音声検索システムの構築と並行して研究開発を推進する。また、第2ステップのゼロ資源音声に対しては、第1ステップで研究開発した方言音声の検索技術を発展させ、複数の外国語のモデルを利用して特定言語に依存しないモデルを構築し、これにより言語非依存のゼロ資源音声に対する検索技術の実現を目指していく。
|