発声者や雑音環境の変化にロバストな危機的音声の検出

研究課題

研究課題/領域番号	21K14381
研究種目	若手研究
配分区分	基金
審査区分	小区分25020:安全工学関連
研究機関	立命館大学
研究代表者	福森隆寛立命館大学, 情報理工学部, 講師 (60755817)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2021年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワード	叫び声 / 強度推定 / 話者情報 / 危機的音声 / 発声者 / 雑音 / 音声コーパス
研究開始時の研究の概要	生活様式の多様化や少子高齢化に伴い，安全な暮らしの創生は喫緊の課題であり，事故や犯罪の予防に資するAIの技術開発が重要となっている．本研究では，視覚情報によらない監視システムの基盤技術として，発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する．具体的には，様々な雑音環境において多数の話者が発話した平静音声と叫び声のコーパスを作成し，この音声コーパスに基づいて話者の発話状態を平静と危機に分類する深層学習アーキテクチャを設計する．さらに，この分類アーキテクチャを高度化させるために，叫び声を笑い声・歓声・怒号・悲鳴などに細分化し，叫び声集合から危機的状況のみを検出することに挑戦する．
研究実績の概要	不審な状況や危険な状況を早期に検知することは，効率的な救助活動のために不可欠である．本研究では，多くの音声監視システムに関わる基本的なタスクである叫び声の検出に注目している．従来研究の多くは，叫び声検出の問題を平静音声と叫び声の二値分類として扱っていた．音声を利用した防犯システムを運用する上では，叫び声の中でも特に強く叫んだ音声を優先的に検出する必要があるため，叫び声検出の問題は単なる二値分類ではなく強度推定として取り扱うことが重要である．我々は，過年度において叫び声とその強度を記録した音声データセットを作成し，それらを使って叫び声の強度を推定するモデルを構築した．さらに，これらの叫び声を詳細に分析した結果，叫び声の強度が話者間で異なることを明らかにした．そして身体的な性別情報をモデル学習に利用することで強度の推定精度が改善することも予備実験にて確認した． 2023年度では更なる推定精度の向上を目指して，性別以外の話者情報を利用した推定手法を検討した．音声研究の最新動向として，話者識別モデルの内部で利用される特徴が，音声感情分類などの他の音声処理タスクの性能改善に寄与する結果が多数報告されている．この話者識別モデルは，可変長の音声信号を，話者固有の特徴を表現した固定長ベクトルに変換する．そこで本研究においても，話者識別に用いられるこの特徴ベクトルを叫び声の強度推定に導入した．具体的には事前訓練された話者識別モデルによって生成されたベクトル表現であるx-vectorと，従来の叫び声検出に利用していた音声特徴量の両方を用いて強度推定モデルを再構築した．評価実験の結果，話者情報を利用することで，音声特徴のみを利用した場合と比較して推定性能が向上することが示された．また話者情報の中でもx-vectorを用いると性別情報よりも推定精度が改善することも確認できた．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由今年度は危機的状況で叫ばれた音声を検出することを目標に研究を進めてきた．今年度の研究活動において強く叫んでいる音声を従来よりも精度高く検出できたものの，叫ばれた場面の危険性の推定精度は不十分であり，提案手法のさらなる改良が必要である．
今後の研究の推進方策	提案手法の高精度化に向けて叫び声から感じられる危険度を推定する研究に取り組む．叫び声はスポーツ観戦やコンサートのような危険な状況以外でも発せられる．これまでに構築したデータセットには，各音声に対して叫びの強度（叫び声らしさ）のみが付与されており，音声から感じられる危険度は付与されていなかった．そこで2024年度では大規模聴取実験を通して叫び声から感じられる危険度を点数化し，その情報を各音声に付与することで叫び声データセットを拡充する．そして，このデータセットを使って叫び声から危険度を予測するモデル構築にも取り組む計画である．

報告書

(3件)

研究成果
(10件)

すべて 2023 2022 2021

すべて学会発表 (9件) (うち国際学会 2件) 産業財産権 (1件)

[学会発表] Investigating the Effectiveness of Speaker Embeddings for Shout Intensity Prediction2023
- 著者名/発表者名
  Takahiro Fukumori, Taito Ishida, and Yoichi Yamashita
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 話者情報を利用したマルチタスク学習に基づく叫び声の強度推定2022
- 著者名/発表者名
  石田泰都, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 音声認識とのマルチタスク学習を用いたCTCモデルに基づく短区間音声感情認識2022
- 著者名/発表者名
  永瀬亮太郎, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] クリッピング音声に対する叫び声検知の検討2022
- 著者名/発表者名
  石田泰都, 松田和浩, 福森隆寛, 山下洋一
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2021 実施状況報告書
[学会発表] クリッピング音声に対する深層学習を用いた叫び声検知2022
- 著者名/発表者名
  石田泰都, 松田和浩, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] RISC：危機的強度を有する叫び声コーパスの構築2022
- 著者名/発表者名
  福森隆寛, 三久保昭宏, 石田泰都, 山下洋一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] Deep Spectral-Cepstral Fusion for Shouted and Normal Speech Classification2021
- 著者名/発表者名
  Takahiro Fukumori
- 学会等名
  The 22nd Annual Conference of the International Speech Communication Association (INTERSPEECH)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知2021
- 著者名/発表者名
  福森隆寛
- 学会等名
  音学シンポジウム2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] 畳み込みオートエンコーダを用いた外れ値検出による叫び声検知2021
- 著者名/発表者名
  石田泰都, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[産業財産権] 叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法2022
- 発明者名
  福森隆寛
- 権利者名
  学校法人立命館
- 産業財産権種類
  特許
- 出願年月日
  2022
- 関連する報告書
  2022 実施状況報告書

発声者や雑音環境の変化にロバストな危機的音声の検出

研究代表者

福森 隆寛 立命館大学, 情報理工学部, 講師 (60755817)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Investigating the Effectiveness of Speaker Embeddings for Shout Intensity Prediction2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 話者情報を利用したマルチタスク学習に基づく叫び声の強度推定2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声認識とのマルチタスク学習を用いたCTCモデルに基づく短区間音声感情認識2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] クリッピング音声に対する叫び声検知の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] クリッピング音声に対する深層学習を用いた叫び声検知2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] RISC：危機的強度を有する叫び声コーパスの構築2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Deep Spectral-Cepstral Fusion for Shouted and Normal Speech Classification2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 畳み込みオートエンコーダを用いた外れ値検出による叫び声検知2021

著者名/発表者名

学会等名

関連する報告書

[産業財産権] 叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法2022

発明者名

権利者名

産業財産権種類

出願年月日

関連する報告書

福森隆寛立命館大学, 情報理工学部, 講師 (60755817)