• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Self-Organized Learning of Speech Recognition and Synthesis Systems

Research Project

Project/Area Number 26280055
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

Co-Investigator(Kenkyū-buntansha) 能勢 隆  東北大学, 工学研究科, 准教授 (90550591)
Project Period (FY) 2014-04-01 – 2018-03-31
Keywords音声言語情報処理 / ブラックボックス最適化 / 教師なし学習 / 教師なし適応 / 強化学習
Outline of Annual Research Achievements

現在音声認識や音声合成などにおいて高い性能を得るためには、多大な手間と費用が必要となる教師あり学習やシステムチューニングが必要とされている。本研究ではこれらのシステム開発における自動化を目的に、人手の介入の必要度を下げるための取り組みを行った。
ニューラルネットワークにおいてニューロンの結合重みはバックプロパゲーションにより推定されるが、学習時にはそれ以外にネットワークの構造や各種学習条件を最適化する必要がある。本研究では進化戦略やベイズ法などのブラックボックス最適化手法を応用し、並列計算を行うことで、大規模な音声認識システムや翻訳システムのチューニングの自動最適化に有効であることを示した。またそれにより構築した音声認識システムをもとに、言語によらず音声識別性能の高い音声特徴量の作成手法を提案し、有効性を示した。これは低リソース言語における教師なし学習において有用となるものである。音声合成においては、一般に人が聞いて自然な音声が合成されるように目的関数を設計するのが難しい問題がある。その解決法として、目的関数自身をシステムに学習させる敵対的学習を利用した任意話者声質変換システムの改良を検討した。
音声認識システム等においては、特定のタスクに対して一度高精度なシステムを構築したとしても、同じ言語の異なるタスクに用いようとすると認識性能が大きく劣化してしまう問題がある。この問題に対応するため、認識対象タスクの書き起こしラベルの無い音声データを用いた教師なし適応手法や、クラウド環境における多数のユーザーからの僅かなフィードバックをもとにシステム性能を向上させる手法を提案し、有効性を示した。

Research Progress Status

29年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

29年度が最終年度であるため、記入しない。

Causes of Carryover

29年度が最終年度であるため、記入しない。

Expenditure Plan for Carryover Budget

29年度が最終年度であるため、記入しない。

  • Research Products

    (31 results)

All 2018 2017 Other

All Int'l Joint Research (1 results) Journal Article (15 results) (of which Int'l Joint Research: 5 results,  Peer Reviewed: 6 results,  Open Access: 2 results) Presentation (15 results) (of which Int'l Joint Research: 6 results)

  • [Int'l Joint Research] Johns Hopkins University/Carnegie Mellon University/MERL(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      Johns Hopkins University/Carnegie Mellon University/MERL
  • [Journal Article] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018

    • Author(s)
      Taku Kato, Takahiro Shinozaki
    • Journal Title

      Proc. IEEE ICASSP

      Volume: - Pages: 5759~5763

    • Peer Reviewed
  • [Journal Article] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

    • Author(s)
      加藤拓, 篠崎隆宏
    • Journal Title

      日本音響学会2018年春季研究発表会講演論文集

      Volume: - Pages: 15~16

  • [Journal Article] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

    • Author(s)
      池下裕紀, 篠崎隆宏
    • Journal Title

      日本音響学会2018年春季研究発表会講演論文集

      Volume: - Pages: 123~124

  • [Journal Article] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

    • Author(s)
      鄭 崇輝,李 知雨,王 文博,庄 佰融,篠崎 隆宏
    • Journal Title

      日本音響学会2018年春季研究発表会講演論文集

      Volume: - Pages: 125~126

  • [Journal Article] DNN に基づく任意話者からの声質変換の雑音環境における評価2018

    • Author(s)
      宮本 颯, 能勢 隆, 千葉 祐弥, 伊藤 彰則
    • Journal Title

      日本音響学会2018年春季研究発表会講演論文集

      Volume: - Pages: 345~346

  • [Journal Article] Composite Embedding Systems for Zerospeech2017 Track12017

    • Author(s)
      Hayato Shibata, Taku Kato, Takahiro Shinozaki, Shinji Watanabe
    • Journal Title

      Proc. IEEE ASRU

      Volume: - Pages: 747-753

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

    • Author(s)
      Hao Qin, Takahiro Shinozaki, Kevin Duh
    • Journal Title

      Proc. International Workshop on Spoken Language Translation (IWSLT)

      Volume: - Pages: 120~128

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

    • Author(s)
      Zhuang Bairong, Wang Wenbo, Li Zhiyu, Zheng Chonghui, Takahiro Shinozaki
    • Journal Title

      Proc. Dialog System Technology Challenges (DSTC6)

      Volume: - Pages: 1~5

    • Peer Reviewed / Open Access
  • [Journal Article] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

    • Author(s)
      加藤 拓, 篠崎 隆宏
    • Journal Title

      情報処理学会研究報告

      Volume: Vol.2017-SLP-119 Pages: 1~4

  • [Journal Article] ベイズ推論を用いた半教師あり学習の日本語適用2017

    • Author(s)
      池下裕紀, 篠崎隆宏, 渡部晋治, 持橋大地, Graham Neubig
    • Journal Title

      情報処理学会研究報告

      Volume: Vol.2017-SLP-118 Pages: 1~4

    • Int'l Joint Research
  • [Journal Article] 仮説選択に基づくDNN音声認識システムの強化学習2017

    • Author(s)
      加藤 拓, 篠崎 隆宏
    • Journal Title

      情報処理学会研究報告

      Volume: Vol.2017-SLP-118 Pages: 1~5

  • [Journal Article] Semi-Supervised Learning of a Pronunciation Dictionary from Disjoint Phonemic Transcripts and Text2017

    • Author(s)
      Takahiro Shinozaki, Shinji Watanabe, Daichi Mochihashi, Graham Neubig
    • Journal Title

      Proc. Interspeech

      Volume: - Pages: 2546~2550

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] ゼロリソース言語への応用を目的としたABXテストによるDNN特徴量の検討2017

    • Author(s)
      柴田駿人, 加藤拓, 篠崎隆宏, 渡部晋治
    • Journal Title

      日本音響学会2017年秋季研究発表会講演論文集

      Volume: - Pages: 1~2

  • [Journal Article] 進化的戦略を用いたニューラル機械翻訳システムの自動最適化2017

    • Author(s)
      覃 浩,篠崎 隆宏, Duh Kevin
    • Journal Title

      日本音響学会2017年秋季研究発表会講演論文集

      Volume: - Pages: 1397~1398

    • Int'l Joint Research
  • [Journal Article] Voice Conversion from Arbitrary Speakers Based on Deep Neural Networks with Adversarial Learning2017

    • Author(s)
      Sou Miyamoto, Takashi Nose, Suzunosuke Ito, Harunori Koike, Yuya Chiba, Akinori Ito, Takahiro Shinozaki
    • Journal Title

      Proceeding of the Thirteenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing

      Volume: - Pages: 97~103

    • Peer Reviewed
  • [Presentation] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection2018

    • Author(s)
      Takahiro Shinozaki
    • Organizer
      IEEE ICASSP
    • Int'l Joint Research
  • [Presentation] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

    • Author(s)
      篠崎 隆宏
    • Organizer
      日本音響学会春季研究発表会
  • [Presentation] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

    • Author(s)
      池下 裕紀
    • Organizer
      日本音響学会春季研究発表会
  • [Presentation] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

    • Author(s)
      鄭 崇輝
    • Organizer
      日本音響学会春季研究発表会
  • [Presentation] DNN に基づく任意話者からの声質変換の雑音環境における評価2018

    • Author(s)
      宮本 颯
    • Organizer
      日本音響学会春季研究発表会
  • [Presentation] Composite Embedding Systems for Zerospeech2017 Track12017

    • Author(s)
      Hayato Shibata
    • Organizer
      IEEE ASRU
    • Int'l Joint Research
  • [Presentation] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

    • Author(s)
      Hao Qin
    • Organizer
      International Workshop on Spoken Language Translation (IWSLT)
    • Int'l Joint Research
  • [Presentation] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

    • Author(s)
      Zhuang Bairong
    • Organizer
      Dialog System Technology Challenges (DSTC6)
    • Int'l Joint Research
  • [Presentation] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

    • Author(s)
      加藤 拓
    • Organizer
      情報処理学会音声言語処理研究会
  • [Presentation] ベイズ推論を用いた半教師あり学習の日本語適用2017

    • Author(s)
      池下 裕紀
    • Organizer
      情報処理学会音声言語処理研究会
  • [Presentation] 仮説選択に基づくDNN音声認識システムの強化学習2017

    • Author(s)
      加藤 拓
    • Organizer
      情報処理学会音声言語処理研究会
  • [Presentation] Semi-Supervised Learning of a Pronunciation Dictionary from Disjoint Phonemic Transcripts and Text2017

    • Author(s)
      Takahiro Shinozaki
    • Organizer
      Interspeech
    • Int'l Joint Research
  • [Presentation] ゼロリソース言語への応用を目的としたABXテストによるDNN特徴量の検討2017

    • Author(s)
      柴田 駿人
    • Organizer
      日本音響学会秋季研究発表会
  • [Presentation] 進化的戦略を用いたニューラル機械翻訳システムの自動最適化2017

    • Author(s)
      覃 浩
    • Organizer
      日本音響学会秋季研究発表会
  • [Presentation] Voice Conversion from Arbitrary Speakers Based on Deep Neural Networks with Adversarial Learning2017

    • Author(s)
      Sou Miyamoto
    • Organizer
      Thirteenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing
    • Int'l Joint Research

URL: 

Published: 2018-12-17   Modified: 2022-02-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi