2020 Fiscal Year Research-status Report

高齢者への音声による効果的な情報伝達のための韻律制御モデルの構築と評価

Research Project

Project/Area Number	20K11869
Research Institution	Suwa University of Science
Principal Investigator	水野秀之公立諏訪東京理科大学, 工学部, 教授 (30833892)
Co-Investigator(Kenkyū-buntansha)	中嶋秀治日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究主任 (90832684)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	発話テキスト収集 / 音声収録 / 高齢者向け発話 / 基本周波数 / 統計分析
Outline of Annual Research Achievements	これまで，我々は高齢者に聞き取りやすいと評価された話者が発話した音声は，特に聴取者を意識せずに読み上げた音声と比較して，明らかに異なる韻律的特徴があることを報告している．しかし，これまでの研究で用いた音声は高齢者向けに意識した発話した音声の話者と，単に読み上げた音声の話者が異なるため相対的な比較分析しか行うことができなかった．また，音声合成において重要となる文章の内容を伝える点で重要な箇所についても特にラベルが付与されていなため，重要な箇所とそれ以外の箇所で韻律的表現がどのように異なるか分析することができなかった．さらに，発話文書はジャンルが統一されておらず，言語的特徴も多様であったため韻律的特徴が確認されても言語的特徴と結びつけることが困難であり，言語表現と対応付けも困難であった．そこで今回の研究では，まず発話対象となる文書のジャンルを市町村の広報文の１ジャンルに絞ったうえで，実際の使用場面と話者が内容の重要性を判断しやすくするため模擬的に作成した文書ではなく実際に使用された市町村の広報文を収集した上で読みやすさを考慮して一部加工して発話用文書として用いた．また音声については，高齢者から最も発話が聞き取りやすいと評価された女性話者1名が，高齢者を意識して発話した高齢者向け音声と，特に対象を意識せずに発話した読み上げ音声の2種類の音声の収録を行なった．さらに，話者に対して事前に文書内で高齢者に内容を伝える点で重要だと考える箇所にラベルの付与を行わせた．収録した高齢者向け発話と読み上げ発話について，基本周波数の統計的な分析を行なったところ，これまでの研究と同様に高齢者向け発話の基本周波数の平均値は高いものの、全般的に高くしているわけではなく部分的に高くしている場合があることと，δ成分の平均値も大きくなり基本周波数変動量が大きくなっていることがわかった．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 今年度の当初計画では、年度前半の9月までに発話用文書の収集と音声収録を完了させ，年度後半は特徴分析に必要なラベルデータ等の整備を行った後に，韻律的特徴の分析を行い学会で発表する予定であった．発話用文章の収集については予定どおり行うことができたものの，音声の収録作業を行う業者の所在地が東京都内であり，選定した発話者も首都圏在住であったため，covid-19の感染状況の広がりにともなう緊急事態宣言等の社会的状況の激変と各種行動の大幅な制限により，音声収録の開始時期の見通しを立てることが不可能となった．社会的状況が落ち着きを見せた後も，感染防止を考慮した音声収録環境の整備や発話者のスケジュール等の調整もあって収録開始時期が大幅に延期となり，最終的には9月中旬からの収録開始となったため2021年2月末にデータ収集と整備を完了することができた．従って年度内ではモーラとの対応付けや呼気段落のラベル付与等の作業を行うことができなかったため呼気段落単位での特徴分析や話速分析を行うことができず，基本周波数の統計的な分析のみ行うに留まった．
Strategy for Future Research Activity	本来の計画では，今年度は前年度で得た音響的特徴量や韻律的特徴量の分析結果に基づいて，言語的情報からの韻律的特徴の予測モデルの構築を行う予定であったが，【現在までの進捗状況】で示した通り，十分な特徴分析を行うことができなかった．そのため2021年度前半では特徴分析に必要なラベルデータ等の整備を可能な限り早急に進め、その後音響的特徴と韻律的特徴の分析を行い年度前半の9月までには呼気段落単位での高齢者向け発話と読み上げ発話間の統計的な比較分析を行い，これまで異なる話者で行ってきた比較分析結果との差異について調査し学会にて報告する予定である．また年度後半では文章内での重要な箇所とそれ以外との韻律的特徴の差異に関する詳細な調査とともに，韻律的予測モデル構築に必要な言語的特徴の抽出を行い学会に報告する予定である． 2022年度は，2021年度に得られた知見に基づいて統計的予測モデルを構築して，韻律の特徴量に関する客観的な評価を行った後，モデルに基づいて予測した韻律を付与した音声の評価実験を行うことで予測モデルの主観評価を行う予定である．