• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

構音障がい者の複数モダリティを用いたコミュニケーション支援技術の研究

Research Project

Project/Area Number 17H01995
Research InstitutionKobe University

Principal Investigator

滝口 哲也  神戸大学, 都市安全研究センター, 教授 (40397815)

Co-Investigator(Kenkyū-buntansha) 高田 哲  神戸大学, 保健学研究科, 名誉教授 (10216658)
陳 金輝  神戸大学, 計算社会科学研究センター, 助教 (50777810)
中井 靖  宮崎大学, 教育学部, 准教授 (80462050)
Project Period (FY) 2017-04-01 – 2021-03-31
Keywordsヒューマン・インターフェース
Outline of Annual Research Achievements

今年度は昨年度までの成果をもとに,障がい者コミュニケーション支援システムに資する手法の提案,及び実証実験において性能のさらなる改善を確認した.概要は以下のとおりである.
(1) 複数データベースを利用した音声認識:構音障がい者は発話による身体への負担が大きいため,大量の音声データを収録することは難しい.今年度は評価対象である日本人構音障がい者の音声だけでなく,外国人構音障がい者と日本人健常者の音声を用いることによるデータ拡張を行った.提案手法では,構音障がいを持つ日本人話者と外国人話者で音響モジュールを共有し,日本人障がい者と日本人健常者で言語モジュールを共有する構造を持つEnd-to-Endモデルを構築し,音声認識実験により提案手法の有効性を示した.
(2) 音声合成:今年度は構音障がい者の少量発話データによる深層学習に基づいた音声合成の検討を行った.具体的には健常者音声で学習したモデルと構音障がい者の音声で再学習したモデルを用いることで音声を生成する手法を提案した.また構音障がい者の発話解析を行った結果,2000Hzから4000Hzにおいてパワーが弱くなる傾向が見られた.そこで健常者の子音を用い,構音障がい者の欠損した子音の置換を行うことで,明瞭性改善を実現した.
(3) Lip readingによる発話認識:今年度は,teacher-student (TS) 学習による音声認識ネットワークからLip-readingネットワークへの知識蒸留手法を提案した.具体的には,TS学習を異なるモダリティ間(音声と唇画像)での知識蒸留に応用し,情報量の多い音声認識モデルを用いて,情報量の少ないLip-readingモデルを学習した.評価実験により,TS学習に基づく提案手法の有効性を示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

今年度の交付申請書では,3つのサブテーマを設定していた.(A)発話意図理解については,複数データベースを利用した少量学習データに対応した新たなEnd-to-Endモデルを導入し,昨年度の技術をさらに改善し有効性を示した.また,当初の計画に追加して新たに外部知識を用いた雑談対話システムの汎化性能向上も行った.(B)音声合成については,少量学習データを用いた構音障がい者音声合成音の明瞭性改善を実現し,学会などで論文発表を行った.また,当初の計画に追加して,自由な歌唱速度の歌声の合成に関する研究も行った.本技術は,故人の歌声の再現や病気等で声を失った患者の歌声の再現などの利用が考えられる.(C)カメラ映像を用いた音声処理においては,Lip reading のためのクロスモーダルTeacher-Student学習を提案し,その有効性を示すことができた.さらに当初の計画に追加して,ニューラルネットワークの学習効率化に関する研究も行った.具体的には,画像データを適用する際に,深層学習に用いられるニューラルネットワークはその規模に伴い計算量も増加し,学習の安定化や高速化が重要な課題となる.学習の安定化や高速化を妨げる要因として損失関数の非線形性が考えられるため,本研究では,その非線形性を解析する手法として,Block Hessianを導入することによりニューラルネットワークのパラメータグループごとの非線形性の影響変化の可視化を実現した.
英文ジャーナル3件,査読有り国際会議予稿集5件,国内講演論文集22件の発表を行い,本申請課題は,おおむね順調に進展しているといえる.

Strategy for Future Research Activity

本年度の研究成果をもとに研究をさらに遂行していく.
- 研究代表者・研究分担者・協力者の間で,定期的に報告会を開催し,研究の進捗状況を協議する.
- 地域障がい者NPO法人の方々とも定期的に話し合いを行い,新たな研究の可能性についても調査研究を行う.
- 本プロジェクトを通じて得られた研究成果を国内外の学会等で積極的に研究発表を行う.また,個人ホームページなどを通じて研究成果を広く公開していき,様々な意見をいただける機会を設け,新たな研究の可能性について検討する.

  • Research Products

    (31 results)

All 2020 2019 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (27 results) (of which Int'l Joint Research: 5 results,  Invited: 1 results) Remarks (1 results)

  • [Journal Article] Knowledge Transferability Between the Speech Data of Persons With Dysarthria Speaking Different Languages for Dysarthric Speech Recognition2019

    • Author(s)
      Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Journal Title

      IEEE Access

      Volume: 7 Pages: 164320-164326

    • DOI

      10.1109/ACCESS.2019.2951856

    • Peer Reviewed
  • [Journal Article] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019

    • Author(s)
      Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, and Yasuo Ariki
    • Journal Title

      EURASIP Journal on Audio, Speech, and Music Processing

      Volume: 17 Pages: 11 pages

    • DOI

      10.1186/s13636-019-0160-1

    • Peer Reviewed / Open Access
  • [Journal Article] Emotional Voice Conversion Using Dual Supervised Adversarial Networks With Continuous Wavelet Transform F0 Features2019

    • Author(s)
      Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 27 Pages: 1535-1548

    • DOI

      10.1109/TASLP.2019.2923951

    • Peer Reviewed
  • [Presentation] 発話スタイルに非依存な文章表現を用いたスタイルロバストなSeq2seqモデルの提案2020

    • Author(s)
      古舞千暁, 滝口哲也, 有木康雄
    • Organizer
      言語処理学会第26回年次大会発表論文集
  • [Presentation] Transfer Learning to Generate Multiple Sentence Question with Leveraging Difference between Datasets2020

    • Author(s)
      長谷川公大, 松本剛明, 高島遼一, 滝口哲也, 有木康雄, 三田村照子
    • Organizer
      言語処理学会第26回年次大会発表論文集
  • [Presentation] 感情・欲求に基づく主観性を持つ雑談対話システム2020

    • Author(s)
      薛強, 滝口哲也, 有木康雄
    • Organizer
      言語処理学会第26回年次大会発表論文集
  • [Presentation] リアルタイムニューラルボコーダにおける学習データ量の影響の調査2020

    • Author(s)
      松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井 恒
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020

    • Author(s)
      高島 悠樹, 相原 龍, 高島 遼一, 滝口 哲也, 有木 康雄, 村山 修
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] Hybrid CTC/attentionモデルを用いた構音障害者音声認識の検討2020

    • Author(s)
      澤 佑哉, 高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] 少量データを用いた構音障害者音声合成の健常者モデルによる明瞭性改善2020

    • Author(s)
      南坂 竜翔, 高島 遼一, 滝口 哲也
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] 自由な歌唱速度の歌声の合成に関する検討2020

    • Author(s)
      片平 健太, 足立 優司, 田井 清登, 高島 遼一, 滝口 哲也
    • Organizer
      日本音響学会2020年春季研究発表会講演論文集
  • [Presentation] Differentiable Programmingを用いた強化学習の最適化2020

    • Author(s)
      黄 伊莎, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      情報処理学会第82回全国大会講演論文集
  • [Presentation] ニューロンセグメンテーションにおけるマルチドメイン学習による汎化性能の改善2020

    • Author(s)
      長谷川貴大, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄
    • Organizer
      情報処理学会第82回全国大会講演論文集
  • [Presentation] Layer-Wise Invertibility for Extreme Memory Cost Reduction of CNN Training2019

    • Author(s)
      Tristan Hascoet, Quentin Febvre, Weihao Zhuang, Yasuo Ariki, Tetsuya Takiguchi
    • Organizer
      IEEE ICCV Neural Architects Workshop
    • Int'l Joint Research
  • [Presentation] Cortical Patterns for Prediction of Subjective Preference Induced by Chords2019

    • Author(s)
      Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa
    • Organizer
      IEEE EMBC
    • Int'l Joint Research
  • [Presentation] On Zero-Shot Recognition of Generic Objects2019

    • Author(s)
      Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
    • Organizer
      CVPR
    • Int'l Joint Research
  • [Presentation] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019

    • Author(s)
      Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      ICASSP
    • Int'l Joint Research
  • [Presentation] Generation of Objections Using Topic and Claim Information in Debate Dialogue System2019

    • Author(s)
      Kazuaki Furumai, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      International Workshop on Spoken Dialog System Technology
    • Int'l Joint Research
  • [Presentation] ロバストな対話システムのための発話スタイルに非依存なエンコード・デコード手法の提案2019

    • Author(s)
      古舞 千暁, 有木 康雄, 滝口 哲也
    • Organizer
      人工知能学会 言語・音声理解と対話処理研究会
  • [Presentation] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

    • Author(s)
      高島 悠樹, 高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      電子情報通信学会技術研究報告 音声研究会
  • [Presentation] WordNetを用いた雑談対話システムの汎化性能の向上2019

    • Author(s)
      麻生 大聖, 高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      電子情報通信学会技術研究報告
  • [Presentation] Bidirectional Gated Recurrent Units を用いた歌声合成に関する検討2019

    • Author(s)
      片平 健太, 足立 優司, 田井 清登, 高島 遼一, 滝口 哲也
    • Organizer
      情報処理学会 音声言語情報処理研究会
  • [Presentation] 外部知識を用いた雑談対話システムの汎化性能向上の検討2019

    • Author(s)
      麻生 大聖, 高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] Lip readingのためのクロスモーダルTeacher-Student学習2019

    • Author(s)
      高島 悠樹, 相原 龍, 高島 遼一, 滝口 哲也, 有木 康雄, 村山 修
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] Speech-to-Speech Translation using Dual Learning and Prosody Conversion2019

    • Author(s)
      Zhaojie Luo, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] 構音障害者の少量データを用いた深層学習による音声合成の検討2019

    • Author(s)
      南坂 竜翔, 高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] 歌声の母音変化を考慮した歌声合成の検討2019

    • Author(s)
      片平 健太, 足立 優司, 田井 清登, 高島 遼一, 滝口 哲也
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] 構音障害者を対象とした日本語大語彙連続音声認識の検討2019

    • Author(s)
      高島 遼一, 滝口 哲也, 有木 康雄
    • Organizer
      日本音響学会2019年秋季研究発表会講演論文集
  • [Presentation] On zero-shot recognition of generic objects2019

    • Author(s)
      Tristan E. M. Hascoet, Yasuo Ariki, Tetsuya Takiguchi
    • Organizer
      第22回画像の認識・理解シンポジウム
    • Invited
  • [Presentation] Reduce GPU Memory Usage of Training Neural Network by CPU Offloading2019

    • Author(s)
      Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      第22回画像の認識・理解シンポジウム
  • [Remarks] 個人ホームページ

    • URL

      http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi