2014 年度実績報告書

脳性麻痺障がい者の意図認識によるユニバーサルコミュニケーション支援機器の開発

研究課題

研究課題/領域番号	25282053
研究機関	神戸大学
研究代表者	滝口哲也神戸大学, 都市安全研究センター, 准教授 (40397815)
研究分担者	有木康雄神戸大学, 都市安全研究センター, 教授 (10135519) 高田哲神戸大学, 保健学研究科, 教授 (10216658) 中井靖宮崎大学, 教育文化学部, 講師 (80462050) 榎並直子神戸大学, システム情報学研究科, 助教 (80628925)
研究期間 (年度)	2013-04-01 – 2017-03-31
キーワード	教育工学
研究実績の概要	脳性麻痺障がい者の発話スタイルは健常者と異なり，その発話内容を理解するのが困難な場合がある．そのような方々の発話理解を目指し，本年度，以下4つのサブテーマ毎に研究を遂行した．(I)障がい者発話には，ある音素が欠落するといった性質があるため，Deep Boltzmann machineを用いた教師無しのラベル情報推定を行うことにより，正しいラベル情報の取得を試みた．(II)5感情の表情認識について，AdaBoostによる高速表情認識手法について検討を行った．(III)昨年度の研究成果を継続し，非負値行列因子分解(Non-negative Matrix Factorization: NMF)に基づく声質変換手法を検討してきた．同声質変換手法では，入力スペクトルから推定された基底の係数（アクティビティ）を出力話者辞書のパラレルな基底の係数と同一視して変換を行っていた．すなわち，同一発話内容であれば，話者にかかわらず選ばれる基底は同じであるという仮定していた．実際には，基底には多様なスペクトルが含まれるため，同一発話内容であっても選ばれる基底は話者によって異なり，話者間の“アクティビティ不一致問題”が発生していた．当該年度では，この問題を解消するため，入力話者のアクティビティを出力話者のものに変換するマッピング行列を導入し，これを推定するためのアクティビティ適応型NMFを提案した．(IV)これまでの声質変換法では，音声特徴のみを用いた変換手法となっていた．当該年度では，新たに唇画像特徴を組み込んだマルチモーダルな声質変換手法を提案した．唇特徴を組み込むことにより，背景雑音に更に頑健な変換が実現された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究は，障がい者の自立した社会生活支援に資するコミュニケーション支援機器の開発を4つのサブテーマ毎に行うものである．(I)筋肉の緊張による不随意運動のため構音障害者の発話スタイルが不安定になる問題に対して，機械学習法の一つであるDeep Boltzmann machineを用いた音素ラベル情報推定を提案し，有効性を示し学会にて成果発表を行った．(II)統計モデルに基づく感情抽出に関しても，AdaBoostに基づく高速表情認識手法を提案し，学会にて成果発表を行った．(III)昨年度までに提案したNMFに基づく声質変換法において，アクティビティの不一致という問題に対処するため，入力話者と出力話者のスパース係数を変換する“アクティビティマッピング”を導入し，それを可能にするためのアクティビティ適応型NMFを提案し学会にて報告を行った．(IV)これまで提案してきたNMFに基づく声質変換法において，新たに画像特徴を導入したマルチモーダル声質変換を提案した．これにより，音声特徴のみを用いた変換よりもさらに雑音に頑健な変換を行うことを可能となり変換精度が向上した．評価実験を行い，従来の統計的モデルを用いた声質変換法や音声特徴のみを用いたNMFよりも高い精度で変換できることを示した．これらの理由により本申請研究は，おおむね順調に進展しているといえる．
今後の研究の推進方策	H27年度では，H26年度の研究を継続しながら，更に(I)脳性麻痺構音障がい者の発話ばらつきに対処するために，多層ニューラルネットワークの一種であるConvolutional neural networksを用いた発話変動に頑健な音声特徴量抽出を提案する．(II)感情認識に関しては，被験者はカメラに対して様々な角度から発話を行う問題があるため，任意の角度から発話しても認識可能な発話角度に頑健な表情認識手法を提案する．(III)現状の声質変換では，多量の学習発話データが必要とされているが，障がい者にとって多量の学習発話データを事前に用意するのは簡単ではない．そこで少量の学習発話データのみを用いて高精度に声質変換を実現する手法を提案する．(IV)人間は発話内容を理解する際，種々の情報を統合的に利用している．今後は更に発話認識精度の改善を目指し，ニューラルネットワークに基づくマルチモーダル特徴量抽出について検討する．
次年度使用額が生じた理由	H26年度の研究成果について既に国際会議に論文が採択されており(H27年度発表)，H27年度の旅費の一部に充てるため，次年度使用額が発生した．
次年度使用額の使用計画	予定よりも多くの研究成果が得られており，予定よりも多く成果発表を行うことになる．H27年度分として請求した研究費と合わせて旅費の一部に充てる予定である．

研究成果
(12件)

すべて 2015 2014

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (9件) (うち招待講演 1件)

[雑誌論文] Voice Conversion Based on Speaker-dependent Restricted Boltzmann Machines2014
- 著者名/発表者名
  Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E97-D ページ: 1403-1410
- 査読あり
[雑誌論文] Noise-Robust Voice Conversion Based on Sparse Spectral Mapping Using Non-negative Matrix Factorization2014
- 著者名/発表者名
  Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E97-D ページ: 1411-1418
- 査読あり
[雑誌論文] A preliminary demonstration of exemplar-based voice conversion for articulation disorders using an individuality-preserving dictionary2014
- 著者名/発表者名
  Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: 2014:5 ページ: 1-10
- DOI
  10.1186/1687-4722-2014-5
- 査読あり
[学会発表] Deep Boltzmann Machinesを用いた音素ラベル情報の推定2015
- 著者名/発表者名
  高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2015年春季研究発表会講演論文集
- 発表場所
  中央大学 (東京)
- 年月日
  2015-03-16 – 2015-03-18
[学会発表] Normalized Similarity Distance を用いた音声認識の誤り訂正法2015
- 著者名/発表者名
  房安陽平, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2015年春季研究発表会講演論文集
- 発表場所
  中央大学 (東京)
- 年月日
  2015-03-16 – 2015-03-18
[学会発表] Exemplar-based Emotional Voice Conversion Using Non-negative Matrix Factorization2014
- 著者名/発表者名
  Ryo Aihara, Reina Ueda, Tetsuya Takiguchi, and Yasuo Ariki
- 学会等名
  APSIPA
- 発表場所
  Sokha Angkor Resort (カンボジア)
- 年月日
  2014-12-09 – 2014-12-12
[学会発表] Error Correction of Automatic Speech Recognition Based on Normalized Web Distance2014
- 著者名/発表者名
  E. Byambakhishig, K. Tanaka, R. Aihara, T. Nakashika, T. Takiguchi, Y. Ariki
- 学会等名
  Interspeech
- 発表場所
  Singapore EXPO (シンガポール)
- 年月日
  2014-09-14 – 2014-09-18
[学会発表] Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments2014
- 著者名/発表者名
  Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  Interspeech
- 発表場所
  Singapore EXPO (シンガポール)
- 年月日
  2014-09-14 – 2014-09-18
[学会発表] アクティビティマッピングによる非負値行列因子分解を用いた声質変換2014
- 著者名/発表者名
  相原龍, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2014年秋季研究発表会講演論文集
- 発表場所
  北海学園大学 (北海道)
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] A Robust Learning Algorithm Based on SURF and PSM for Facial Expressions Recognition2014
- 著者名/発表者名
  Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  画像の認識・理解シンポジウム
- 発表場所
  岡山コンベンションセンター (岡山)
- 年月日
  2014-07-28 – 2014-07-31
[学会発表] スパース表現に基づく声質変換と構音障害者への応用2014
- 著者名/発表者名
  滝口哲也
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  ホテル花巻 (岩手)
- 年月日
  2014-07-24 – 2014-07-26
- 招待講演
[学会発表] Individuality-preserving Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix Factorization2014
- 著者名/発表者名
  Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  Workshop on Speech and Language Processing for Assistive Technologies
- 発表場所
  Baltimore Marriott Waterfront (ボルチモア)
- 年月日
  2014-06-26 – 2014-06-26

2014 年度 実績報告書

脳性麻痺障がい者の意図認識によるユニバーサルコミュニケーション支援機器の開発

研究代表者

滝口 哲也 神戸大学, 都市安全研究センター, 准教授 (40397815)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Voice Conversion Based on Speaker-dependent Restricted Boltzmann Machines2014

著者名/発表者名

雑誌名

[雑誌論文] Noise-Robust Voice Conversion Based on Sparse Spectral Mapping Using Non-negative Matrix Factorization2014

著者名/発表者名

雑誌名

[雑誌論文] A preliminary demonstration of exemplar-based voice conversion for articulation disorders using an individuality-preserving dictionary2014

著者名/発表者名

雑誌名

DOI

[学会発表] Deep Boltzmann Machinesを用いた音素ラベル情報の推定2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Normalized Similarity Distance を用いた音声認識の誤り訂正法2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Exemplar-based Emotional Voice Conversion Using Non-negative Matrix Factorization2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Error Correction of Automatic Speech Recognition Based on Normalized Web Distance2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] アクティビティマッピングによる非負値行列因子分解を用いた声質変換2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Robust Learning Algorithm Based on SURF and PSM for Facial Expressions Recognition2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] スパース表現に基づく声質変換と構音障害者への応用2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Individuality-preserving Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix Factorization2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実績報告書

滝口哲也神戸大学, 都市安全研究センター, 准教授 (40397815)