本研究課題では,来日外国人犯罪捜査において,犯人の日本語音声から母語を識別できるようなシステムを構築するため,研究用音声資料の収録,分析およびそれらを用いた母語識別実験を行うことを目的とする.平成25年度は,音声コーパスに収める資料の収録を完了し,それらを用いた母語識別実験およびコーパス公開に向けた音声資料の整備を行った. 当初はベトナム語を母語とする話者を中心に音声収録を行う予定であったが,募集に対して応募がなく,代わりに募集のあったタイ語母語話者の音声収録を行った.ベトナム語母語話者の音声については,それを含む音声コーパスを使用して分析および実験を行った. 今年度収録した音声を含むデータセットを用いて,日本語・中国語・韓国語・タイ語の4言語の母語識別実験を行った.発話時の調音速度や基本周波数の変動を特徴量とし,k近傍法による識別実験を行ったところ,類似の先行研究よりも高い83.8%という正解率を得ることができた.調音速度の言語間差については以前から指摘があったが,その差が外国語(本研究では日本語)での発話においても保たれることを示した研究は存在しない.これらの結果を論文にまとめているところである.それ以外にも実験結果を適宜学会等で報告した.昨年度投稿した原著論文が,Speech Communication誌に掲載された. 本研究課題を通じて収録した音声資料を他の音声研究にも利用できるように,コーパス公開に向けた音声資料の編集作業を行った.今後国立情報学研究所の音声言語資源コンソーシアムを通じて順次公開していく予定である.
|