深層異常検知技術による非母国語話者の発話誤り検出

研究課題

研究課題/領域番号	23K11238
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	愛知工科大学
研究代表者	實廣貴敏愛知工科大学, 工学部, 教授 (60394996)
研究分担者	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	非母国語話者 / 発話誤り検出 / 深層学習 / 異常検知 / 基本周波数 / 畳込みAutoencoder / LSTM / 発話評価 / End-to-End音声認識
研究開始時の研究の概要	外国人の日本語学習に役立つよう，非母国語話者の発話誤り検出を，深層学習技術を用いた手法で実現する．一つは，異常検知技術を用い，まず，Autoencoderという入出力が同じになるよう学習するDeep Neural Network (DNN)を，日本語母国語話者の日本語で学習する．評価する場合，そのDNNに非母国語話者発話を入力すると，母国語話者と異なる発話区間で誤差が大きくなり，誤りを検出できる．他に，DNNのみによる音声認識技術（End-to-End音声認識）を用い，発話誤りラベルつきで学習したモデルにより，誤りを検出する．また，レベルが様々な非母国語話者の日本語発話データベースも構築する．
研究実績の概要	日本語を学習する外国人は依然として増加傾向にある．非母国語話者による日本語学習に役立てられるよう，発話誤り検出において，最新技術を活用した手法を確立する．近年のDeep Neural Network技術の進展を取り込んだ方法を検討していく． 2023年度の實廣研では，深層異常検知の考え方を応用したもので，母国語話者の発話のみで学習したモデルを用い，評価する際に，音声特徴量上で母国語話者との差が大きいときには発話誤りとして検出する．モデルとして，ニューラルネットワークの一種であるAutoencoderを用いる．Autoencoderは入出力が等しくなるよう学習するもので，学習したものと性質が同じものであれば，出力で近いものが得られるが，性質が異なるものが入力されると，大きく違うものが出力され，入出力差が大きくなる．この性質を利用する．さらに，畳み込み層を導入した畳み込みAutoencoder，また，LSTMを導入した手法の検討を行った．また，音響特徴量として，周波数特性の特徴であるMFCCとその微分係数，さらに，基本周波数とその微分係数を用いる．この際，MFCCと基本周波数は影響する範囲が異なるため，考慮する前後のフレーム数をそれぞれの特徴量で最適化した上で組み合わせて利用する手法を提案した．実験結果から，畳み込みAutoencoderの精度が高いことが示された．北岡研では，発声された音声データからその日本語の発音の良さ，読みの間違い，発話全体の3種類のスコアを推論する深層ネットワーク，LSTMやBiLSTMを構築した．日本語学校教師より前述の3つの観点から1～5までスコア付けしたデータベースを作成した．本モデルにより推論したスコアの平均二乗誤差（MSE）やピアソン相関係数（PCC）で評価した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究成果として，いくつかの提案方法の検討が進められ，結果も出てきた．2024年2月初めに日本音響学会の論文特集号「音声の多様性とその応用」へ投稿したが，5月に掲載不適当との判定が連絡された．2名の査読者からは多くの事項を指摘されていたが，主な原因は従来手法との比較がないことであった．懸念事項ではあったが，提案手法が従来型のものとは大きく異なるため，どのように比較すべきか難しいところである．また，何を代表的な手法とするかも，難しそうである．従来方法を検討することの方が時間がかかりそうであるが，何か，適切な検討ができないかどうか，検討する予定である．また，非母国語話者の日本語発話音声データベース構築については，提案方法の検討に時間がかかり，音声収録はまだそれほど進められていない．2023年度末に大学が春休みであることを利用し，研究室内の中国人2名でテストも兼ねて，収録や音声データベース化を行った．1名は日本語発話にまだ慣れておらず，文章の読み上げもままならないことも多かった．読み間違えも含めた発話誤りの検出検討も必要であることが分かった．音声収録については，これから本格的に進めていく予定である．
今後の研究の推進方策	異常検知技術を用いた手法による検討においては，比較する意味がありそうな従来手法の選定とその検証を実施し，提案手法との違いを明らかにしていく．また，手法として，さらに高度な方法，例えば，AttentionやTransformerを取り入れたものを検討していく．北岡研での発話評価の検討においても，より高度な深層学習手法を利用していく予定である．音声収録については，2024年度から本格的に進めていく予定である．愛知工科大学では，自動車短期大学も併設しており，留学生も増え，収集しやすい．人種は東南アジア系に偏るが，それも現在の日本に集まる留学生の傾向ではあるので，彼らの日本語音声を収集し，今後どのような検討ができるか，検討していきたい．