2014 Fiscal Year Annual Research Report
脳性麻痺障がい者の意図認識によるユニバーサルコミュニケーション支援機器の開発
Project/Area Number |
25282053
|
Research Institution | Kobe University |
Principal Investigator |
滝口 哲也 神戸大学, 都市安全研究センター, 准教授 (40397815)
|
Co-Investigator(Kenkyū-buntansha) |
有木 康雄 神戸大学, 都市安全研究センター, 教授 (10135519)
高田 哲 神戸大学, 保健学研究科, 教授 (10216658)
中井 靖 宮崎大学, 教育文化学部, 講師 (80462050)
榎並 直子 神戸大学, システム情報学研究科, 助教 (80628925)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 教育工学 |
Outline of Annual Research Achievements |
脳性麻痺障がい者の発話スタイルは健常者と異なり,その発話内容を理解するのが困難な場合がある.そのような方々の発話理解を目指し,本年度,以下4つのサブテーマ毎に研究を遂行した.(I)障がい者発話には,ある音素が欠落するといった性質があるため,Deep Boltzmann machineを用いた教師無しのラベル情報推定を行うことにより,正しいラベル情報の取得を試みた.(II)5感情の表情認識について,AdaBoostによる高速表情認識手法について検討を行った.(III)昨年度の研究成果を継続し,非負値行列因子分解(Non-negative Matrix Factorization: NMF)に基づく声質変換手法を検討してきた.同声質変換手法では,入力スペクトルから推定された基底の係数(アクティビティ)を出力話者辞書のパラレルな基底の係数と同一視して変換を行っていた.すなわち,同一発話内容であれば,話者にかかわらず選ばれる基底は同じであるという仮定していた.実際には,基底には多様なスペクトルが含まれるため,同一発話内容であっても選ばれる基底は話者によって異なり,話者間の“アクティビティ不一致問題”が発生していた.当該年度では,この問題を解消するため,入力話者のアクティビティを出力話者のものに変換するマッピング行列を導入し,これを推定するためのアクティビティ適応型NMFを提案した.(IV)これまでの声質変換法では,音声特徴のみを用いた変換手法となっていた.当該年度では,新たに唇画像特徴を組み込んだマルチモーダルな声質変換手法を提案した.唇特徴を組み込むことにより,背景雑音に更に頑健な変換が実現された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,障がい者の自立した社会生活支援に資するコミュニケーション支援機器の開発を4つのサブテーマ毎に行うものである.(I)筋肉の緊張による不随意運動のため構音障害者の発話スタイルが不安定になる問題に対して,機械学習法の一つであるDeep Boltzmann machineを用いた音素ラベル情報推定を提案し,有効性を示し学会にて成果発表を行った.(II)統計モデルに基づく感情抽出に関しても,AdaBoostに基づく高速表情認識手法を提案し,学会にて成果発表を行った.(III)昨年度までに提案したNMFに基づく声質変換法において,アクティビティの不一致という問題に対処するため,入力話者と出力話者のスパース係数を変換する“アクティビティマッピング”を導入し,それを可能にするためのアクティビティ適応型NMFを提案し学会にて報告を行った.(IV)これまで提案してきたNMFに基づく声質変換法において,新たに画像特徴を導入したマルチモーダル声質変換を提案した.これにより,音声特徴のみを用いた変換よりもさらに雑音に頑健な変換を行うことを可能となり変換精度が向上した.評価実験を行い,従来の統計的モデルを用いた声質変換法や音声特徴のみを用いたNMFよりも高い精度で変換できることを示した.これらの理由により本申請研究は,おおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
H27年度では,H26年度の研究を継続しながら,更に(I)脳性麻痺構音障がい者の発話ばらつきに対処するために,多層ニューラルネットワークの一種であるConvolutional neural networksを用いた発話変動に頑健な音声特徴量抽出を提案する.(II)感情認識に関しては,被験者はカメラに対して様々な角度から発話を行う問題があるため,任意の角度から発話しても認識可能な発話角度に頑健な表情認識手法を提案する.(III)現状の声質変換では,多量の学習発話データが必要とされているが,障がい者にとって多量の学習発話データを事前に用意するのは簡単ではない.そこで少量の学習発話データのみを用いて高精度に声質変換を実現する手法を提案する.(IV)人間は発話内容を理解する際,種々の情報を統合的に利用している.今後は更に発話認識精度の改善を目指し,ニューラルネットワークに基づくマルチモーダル特徴量抽出について検討する.
|
Causes of Carryover |
H26年度の研究成果について既に国際会議に論文が採択されており(H27年度発表),H27年度の旅費の一部に充てるため,次年度使用額が発生した.
|
Expenditure Plan for Carryover Budget |
予定よりも多くの研究成果が得られており,予定よりも多く成果発表を行うことになる.H27年度分として請求した研究費と合わせて旅費の一部に充てる予定である.
|
Research Products
(12 results)