本研究では,生体音に含まれる特徴音の識別(本研究では「聴診音(肺音)を用いた疾患者の検出」,及び「乳児の泣き声に含まれる情動の検出」の二つの課題を対象とする)において,被験者(ユーザ)に直観的でよりわかりやすい認識結果をより高い精度で提供することを目的として20年度より研究を行ってきた. 最終年度は,聴診音に関しては,昨年までは一つの呼気吸気単位での検出を想定していたが,検出精度を高精度化するために,時間的により長い区間を検出対象区間とすることで,副雑音が周期的に生起することを捉えることで検出精度の向上を行った.また,従来用いていた波形を入力とするConvolutional Neural Network(CNN)では計算量が膨大になるため、入力をMFCCとパワーとするTransformerを開発し検出精度の向上を行った.また,肺音の学習データの拡張を行うことで,機械学習を可能にした.一方,乳児の情動検出に関しては,乳児の情動が泣き声の立ち上がり部分に多く存在すると想定し,従来は泣き声の収録音の全体を用いて検出していたが,パワーを用いて泣き声の立ち上がり部分を切り出し,検出対象区間とした.また,学習音声に関してはラベルデータを用いて,泣き声区間のみを切り出して拡張して増加させた.学習及び識別手法に関しては,新たにBiderectional Long Short Term Memory(BLSTM)により構築した.BLSTMを用いて泣き始めを考慮しない先行研究と比較して,情動の識別率を大きく向上させた. 研究期間全体を通じた研究成果としては,識別クラスを大きく増やすことはできなかったものの,高精度化のための学習データの拡張方法が確立できたこと,有効な機械学習方式とその入力パラメータをを明らかにしたことが成果として挙げられる.
|