2022 Fiscal Year Annual Research Report
高齢者への音声による効果的な情報伝達のための韻律制御モデルの構築と評価
Project/Area Number |
20K11869
|
Research Institution | Suwa University of Science |
Principal Investigator |
水野 秀之 公立諏訪東京理科大学, 工学部, 教授 (30833892)
|
Co-Investigator(Kenkyū-buntansha) |
中嶋 秀治 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究主任 (90832684)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 高齢者向け発話データの整備 / 韻律分析 / 韻律モデル構築 / 言語モデル構築 |
Outline of Annual Research Achievements |
2020年度は高齢者から最も発話が聞き取りやすいと評価された女性1名を話者として選定し,高齢者を意識して発話した音声(Elderly)と読み上げ音声(Reading)を収集した.発話文には広報文を模擬し作成した136文書を用いた.また当該話者に重要と思われる箇所(重要箇所)にラベルを付与させた. 2021年度は収集した音声の呼気段落とアクセント句境界のラベリング及びElderlyとReading間の韻律の比較分析と重要箇所の言語的モデルの検討を行い,基本周波数の平均値の上昇.アクセント句内での基本周波数レンジの拡大,話速の若干の上昇,重要箇所におけるアクセント句内の基本周波数の最大値の上昇を確認した.また,重要箇所を予測する言語的モデルに関する予備検討を行ない,深層学習を用いることで概ね高い精度が得られることを確認した. 2022年度はアクセント句単位での韻律特徴の比較分析とReadingの韻律特徴に基づきElderlyの韻律特徴を生成する韻律制御モデルの構築及び重要箇所を予測する言語モデルの構築を行った.比較分析の結果からF0最大値に明確な統計的有意差があることがわかった.また韻律制御モデルの構築ではF0最大値については決定係数0.75と高い精度で制御可能であることがわかった.最後に,70代の高齢者を評価者として韻律制御モデルで生成した合成音声に対し, F0非制御合成音声との対比較によるわかりやすさに関する主観評価実験を行った結果,F0制御音声の評価が低い結果となった.重要箇所を予測する言語モデルの構築ではBERTをベースとして,今回用いた文書データでファインチューニングを行なうことで,重要箇所の予測に関し文書単位または文単位の2種類のモデルの検討を行なった.実験の結果,文書単位で81.3%,文単位で79.0%という高い精度で予測可能であることを確認した.
|