ゼロ・少音声言語資源の音声処理技術の構築

研究課題

研究課題/領域番号	21K12611
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90030:認知科学関連
研究機関	岩手県立大学
研究代表者	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
研究分担者	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642) 松原雅文岩手県立大学, ソフトウェア情報学部, 准教授 (70363728)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード	方言音声 / 少資源音声言語 / キーワード検索 / 方言音声理解 / 少資源音声 / 音声検索
研究開始時の研究の概要	少資源の言語に対してアプローチする場合、言語の異なる豊富な音声言語資源の言語の音声認識システムの利用や、音声の特徴量ベースで音声同士を比較することで照合する等の方式が考えられるが、言語の差、話者の差、環境の差などがあり、容易には実現が困難である。そこでこれまでの我々の研究成果に基づき、高精度・高速・低容量の音声検索システムを発展させ、少資源の言語に対する音声情報処理技術の研究開発を行う。この検索技術を応用し方言音声の理解支援システムの構築を行う。最終的には、ゼロ資源言語に対して、検索機能の実現および理解支援システムへの展開を図る。
研究実績の概要	音声データやその書き起こしデータ（音声言語資源）が豊富な言語(日本語や英語等）がある一方、少数民族の言語や方言音声のように音声データ自体が少ない（少資源）あるいは音声データが殆どない（ゼロ資源）音声言語が存在する。豊富な音声言語資源に対しては高精度な音声認識システムが実現されているが、少資源音声言語やゼロ資源音声言語に対しては音声認識システムを構築することは困難である。一方、少言語に対して単語やフレーズで検索等の音声処理ができれば、理解への手助けなどの新しい技術展開が可能になる。そこで本研究課題では、少資源・ゼロ資源音声に対する検索技術および情報処理技術の構築を目指すものである。我々は、少資源音声に対して有効な技術として検索技術を位置付け、その研究開発を推進している。本研究課題の実現には高精度・高速・低容量でのシステム実装が必要であり課題開始ととものにその実現方式の研究開発を推進している。令和4年度はこの技術を遠野方言に応用するため、新しい音声の検索方式として最新の深層学習手法を導入し、音声データの最尤および上位の状態系列の利用による検索精度向上方式を研究開発した。キーワードを音声（方言音声）で与え、音声同士を比較・検索する方式についても検討し、一旦深層学習モデルを通しフレームレベル（1/100秒毎）の不特定特徴量で照合する方式を研究開発し、その有効性を検証した。令和5年度は、キーワードを音節または音素としてテキストで与え、そのキーワード列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通したその特徴量で比較する方式に比べ、高い検索精度が得られることを実証した。この方式は、標準語音声のみで学習したモデルを利用しており、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索が実現できることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由日本語の方言音声のような少資源言語や少数民族における音声言語資源が殆どないゼロ資源言語に対して、本研究課題では、高い精度で高速にかつ低容量で検索ができるシステムの開発と、その応用システムの開発を目指している。本年度も日本語方言音声に対しての高精度・高速・低容量の検索技術の確立を推進することを目的として研究を推進した。昨年度までの第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進した。遠野の語り部の方言音声を分析すると、標準語日本語音声と比べ音声言語体系が異なるため単語単位での音声認識システムを用いることができず、キーワードの音素／音節列と、遠野音声の音素／音節列を照合する方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現できた。また、ゼロ資源音声を念頭にして、キーワードを音声で与えられた場合の照合方式を研究開発し、音節などの深層学習モデルから出力されるフレームレベルの音節事後確率を用いることによりキーワード検出をする方式を実装した。令和5年度は、方言音声のキーワードを聴取者が音節（または音素）に変換し、それをテキストとして与え、そのキーワードの音節（音素）列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通してその特徴量で比較する方式や他の方式に比べ、最も高い検索精度が得られることを実証した。この方式は、標準語音声のみで学習したモデルを利用しており、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索が実現できることを確認した。以上より、現在おおむね予定通りの進捗と考える。現在は、キーワードの検出精度のさらなる向上を目指すとともに、ゼロ資源言語を念頭に多言語への展開を図ることを進めており、予定通りの進捗と考える。
今後の研究の推進方策	当初計画通り、R3年度の第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進し、従来手法に比べ、8割程度の高い検出率精度で、入力音声に対してリアルタイム処理可能かつ10時間の音声データに対し1秒以内で、必要メモリ量が100MB以内と低容量の方言音声検索システムを実現した。R3およびR4年度での研究開発により、標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの検索方式を実装し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現した。当初目標に対し、9割近い検出精度、10時間の音声データに対し1秒以内、およびメモリは500GBの実装となった。メモリは目標に及ばないものの、検出精度および検索時間は目標を達成できた。R5年度は、キーワードを音節または音素としてテキストで与え、そのキーワード列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通したその特徴量で比較する方式に比べ、遠野方言においても高い検索精度が得られることを実証した。次年度の最終年度では、方言の理解支援システムについての設計および研究開発と、上述の当初目標をすべて達成すべく、高精度・高速・低容量の方言音声検索システムの構築の研究開発を並行して推進する。第2ステップの音声資源が殆どないゼロ資源音声に対しては、既に研究開発した方言音声の検索技術をゼロ資源音声への適用・応用を行う。現状では複数の外国語をゼロ資源音声言語と想定し実験・検証を行う。特定言語に依存しないモデルの構築を目指す。これにより言語非依存のゼロ資源音声に対する検索技術の実現を目指していく。

報告書

(3件)

研究成果
(12件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (11件) (うち国際学会 4件)

[雑誌論文] 音声中の音声検索語検出における平均事後確率ベクトル圧縮方式の提案2023
- 著者名/発表者名
  横田平志、小嶋和徳、李時旭、伊藤慶明
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 64 号: 1 ページ: 236-246
- DOI
  10.20729/00223427
- ISSN
  1882-7764
- 年月日
  2023-01-15
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[学会発表] 遠野方言音声理解のためのキーワードスポッティング方式の検討2024
- 著者名/発表者名
  有賀智広，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  情報処理学会第86回全国大会，4R-06
- 関連する報告書
  2023 実施状況報告書
[学会発表] Accurate and Practical Query-By-Example by Using Multiple Deep Learning Models and Frame Compression Methods2023
- 著者名/発表者名
  Hikaru Yamaga, Kazuki Hatakeyama, Kazunori Kojima, Shi-wook Lee and Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Ensemble of Transformer and Convolutional Recurrent Neural Network for Improving Discrimination Accuracy in Automatic Chord Recognition2023
- 著者名/発表者名
  Hikaru Yamaga, Monma, Kazunori Kojima and Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 音声中の音声検索語検出におけるアンサンブル学習モデルを用いた検索精度向上2023
- 著者名/発表者名
  山賀光，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  日本音響学会秋季研究発表会，2-Q-17
- 関連する報告書
  2023 実施状況報告書
[学会発表] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023
- 著者名/発表者名
  畠山和望，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  情報処理学会第85回全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023
- 著者名/発表者名
  皆川玲緒，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  情報処理学会第85回全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022
- 著者名/発表者名
  Reo Minakawa, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 楽曲ジャンル分類へのEfficientNetV2の適用2022
- 著者名/発表者名
  坂田大地，小嶋和徳，伊藤慶明
- 学会等名
  情報処理学会第84回全国大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021
- 著者名/発表者名
  Kazuki Hatakeyama, Masahiro Nishino, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021
- 著者名/発表者名
  西野将弘，伊藤慶明，小嶋和徳，李時旭
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021
- 著者名/発表者名
  皆川玲緒，小嶋和徳，伊藤慶明
- 学会等名
  情報処理学会第84回全国大会
- 関連する報告書
  2021 実施状況報告書

ゼロ・少音声言語資源の音声処理技術の構築

研究代表者

伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 音声中の音声検索語検出における平均事後確率ベクトル圧縮方式の提案2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] 遠野方言音声理解のためのキーワードスポッティング方式の検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Accurate and Practical Query-By-Example by Using Multiple Deep Learning Models and Frame Compression Methods2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Ensemble of Transformer and Convolutional Recurrent Neural Network for Improving Discrimination Accuracy in Automatic Chord Recognition2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の音声検索語検出におけるアンサンブル学習モデルを用いた検索精度向上2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 楽曲ジャンル分類へのEfficientNetV2の適用2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021

著者名/発表者名

学会等名

関連する報告書

伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)