2023 Fiscal Year Research-status Report

Emergency speech detection robust for various speaker and noisy environment

Research Project

Project/Area Number	21K14381
Research Institution	Ritsumeikan University
Principal Investigator	福森隆寛立命館大学, 情報理工学部, 講師 (60755817)
Project Period (FY)	2021-04-01 – 2025-03-31
Keywords	叫び声 / 強度推定 / 話者情報
Outline of Annual Research Achievements	不審な状況や危険な状況を早期に検知することは，効率的な救助活動のために不可欠である．本研究では，多くの音声監視システムに関わる基本的なタスクである叫び声の検出に注目している．従来研究の多くは，叫び声検出の問題を平静音声と叫び声の二値分類として扱っていた．音声を利用した防犯システムを運用する上では，叫び声の中でも特に強く叫んだ音声を優先的に検出する必要があるため，叫び声検出の問題は単なる二値分類ではなく強度推定として取り扱うことが重要である．我々は，過年度において叫び声とその強度を記録した音声データセットを作成し，それらを使って叫び声の強度を推定するモデルを構築した．さらに，これらの叫び声を詳細に分析した結果，叫び声の強度が話者間で異なることを明らかにした．そして身体的な性別情報をモデル学習に利用することで強度の推定精度が改善することも予備実験にて確認した． 2023年度では更なる推定精度の向上を目指して，性別以外の話者情報を利用した推定手法を検討した．音声研究の最新動向として，話者識別モデルの内部で利用される特徴が，音声感情分類などの他の音声処理タスクの性能改善に寄与する結果が多数報告されている．この話者識別モデルは，可変長の音声信号を，話者固有の特徴を表現した固定長ベクトルに変換する．そこで本研究においても，話者識別に用いられるこの特徴ベクトルを叫び声の強度推定に導入した．具体的には事前訓練された話者識別モデルによって生成されたベクトル表現であるx-vectorと，従来の叫び声検出に利用していた音声特徴量の両方を用いて強度推定モデルを再構築した．評価実験の結果，話者情報を利用することで，音声特徴のみを利用した場合と比較して推定性能が向上することが示された．また話者情報の中でもx-vectorを用いると性別情報よりも推定精度が改善することも確認できた．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 今年度は危機的状況で叫ばれた音声を検出することを目標に研究を進めてきた．今年度の研究活動において強く叫んでいる音声を従来よりも精度高く検出できたものの，叫ばれた場面の危険性の推定精度は不十分であり，提案手法のさらなる改良が必要である．
Strategy for Future Research Activity	提案手法の高精度化に向けて叫び声から感じられる危険度を推定する研究に取り組む．叫び声はスポーツ観戦やコンサートのような危険な状況以外でも発せられる．これまでに構築したデータセットには，各音声に対して叫びの強度（叫び声らしさ）のみが付与されており，音声から感じられる危険度は付与されていなかった．そこで2024年度では大規模聴取実験を通して叫び声から感じられる危険度を点数化し，その情報を各音声に付与することで叫び声データセットを拡充する．そして，このデータセットを使って叫び声から危険度を予測するモデル構築にも取り組む計画である．
Causes of Carryover	現在，これまでの研究成果をまとめた学術論文を国際学術雑誌へ投稿中である．2023年度末までに最終的な査読結果が返却されなかったため，英文校正や論文掲載などに関する費用は2024年度に執行する予定である．学術雑誌への掲載判定が決定した後（本件に関わる経費の詳細が確定した後），研究費の残額を提案手法の高精度化（叫び声から感じられる危険度の推定に関する技術開発）に充当する．具体的には大規模聴取実験を実施するためのクラウドソーシングサービスの利用料として執行予定である．

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Investigating the Effectiveness of Speaker Embeddings for Shout Intensity Prediction2023
- Author(s)
  Takahiro Fukumori, Taito Ishida, and Yoichi Yamashita
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- Int'l Joint Research