Emergency speech detection robust for various speaker and noisy environment
Project/Area Number |
21K14381
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 25020:Safety engineering-related
|
Research Institution | Ritsumeikan University |
Principal Investigator |
福森 隆寛 立命館大学, 情報理工学部, 講師 (60755817)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 叫び声 / 強度推定 / 話者情報 / 危機的音声 / 発声者 / 雑音 / 音声コーパス |
Outline of Research at the Start |
生活様式の多様化や少子高齢化に伴い,安全な暮らしの創生は喫緊の課題であり,事故や犯罪の予防に資するAIの技術開発が重要となっている.本研究では,視覚情報によらない監視システムの基盤技術として,発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する.具体的には,様々な雑音環境において多数の話者が発話した平静音声と叫び声のコーパスを作成し,この音声コーパスに基づいて話者の発話状態を平静と危機に分類する深層学習アーキテクチャを設計する.さらに,この分類アーキテクチャを高度化させるために,叫び声を笑い声・歓声・怒号・悲鳴などに細分化し,叫び声集合から危機的状況のみを検出することに挑戦する.
|
Outline of Annual Research Achievements |
不審な状況や危険な状況を早期に検知することは,効率的な救助活動のために不可欠である.本研究では,多くの音声監視システムに関わる基本的なタスクである叫び声の検出に注目している.従来研究の多くは,叫び声検出の問題を平静音声と叫び声の二値分類として扱っていた.音声を利用した防犯システムを運用する上では,叫び声の中でも特に強く叫んだ音声を優先的に検出する必要があるため,叫び声検出の問題は単なる二値分類ではなく強度推定として取り扱うことが重要である. 我々は,過年度において叫び声とその強度を記録した音声データセットを作成し,それらを使って叫び声の強度を推定するモデルを構築した.さらに,これらの叫び声を詳細に分析した結果,叫び声の強度が話者間で異なることを明らかにした.そして身体的な性別情報をモデル学習に利用することで強度の推定精度が改善することも予備実験にて確認した. 2023年度では更なる推定精度の向上を目指して,性別以外の話者情報を利用した推定手法を検討した.音声研究の最新動向として,話者識別モデルの内部で利用される特徴が,音声感情分類などの他の音声処理タスクの性能改善に寄与する結果が多数報告されている.この話者識別モデルは,可変長の音声信号を,話者固有の特徴を表現した固定長ベクトルに変換する.そこで本研究においても,話者識別に用いられるこの特徴ベクトルを叫び声の強度推定に導入した.具体的には事前訓練された話者識別モデルによって生成されたベクトル表現であるx-vectorと,従来の叫び声検出に利用していた音声特徴量の両方を用いて強度推定モデルを再構築した.評価実験の結果,話者情報を利用することで,音声特徴のみを利用した場合と比較して推定性能が向上することが示された.また話者情報の中でもx-vectorを用いると性別情報よりも推定精度が改善することも確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今年度は危機的状況で叫ばれた音声を検出することを目標に研究を進めてきた.今年度の研究活動において強く叫んでいる音声を従来よりも精度高く検出できたものの,叫ばれた場面の危険性の推定精度は不十分であり,提案手法のさらなる改良が必要である.
|
Strategy for Future Research Activity |
提案手法の高精度化に向けて叫び声から感じられる危険度を推定する研究に取り組む.叫び声はスポーツ観戦やコンサートのような危険な状況以外でも発せられる.これまでに構築したデータセットには,各音声に対して叫びの強度(叫び声らしさ)のみが付与されており,音声から感じられる危険度は付与されていなかった.そこで2024年度では大規模聴取実験を通して叫び声から感じられる危険度を点数化し,その情報を各音声に付与することで叫び声データセットを拡充する.そして,このデータセットを使って叫び声から危険度を予測するモデル構築にも取り組む計画である.
|
Report
(3 results)
Research Products
(10 results)