• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Research Project

Project/Area Number 26280055
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

Co-Investigator(Kenkyū-buntansha) 能勢 隆  東北大学, 工学(系)研究科(研究院), 准教授 (90550591)
Project Period (FY) 2014-04-01 – 2018-03-31
Keywords音声認識 / ディープニューラルネットワーク / 音響モデル / 言語モデル / 進化的アルゴリズム / 教師なし学習 / 深層学習
Outline of Annual Research Achievements

前年度において音声認識システムで音響モデルとして用いられる大規模なフィードフォワード型ニューラルネットワークの構造や学習条件等について専門家のノウハウや労力に頼ることなく進化計算により自動的に最適化する手法を提案し有効性を示したが、その成果を発展させリカレント構造を有するニューラルネットワークに適用し言語モデルの最適化において認識性能の向上を実現した。ネットワーク構造は通常のリカレントネットワークの他Long Short Term Memoryを用いたネットワーク、HighwayネットワークやResidualネットワークなどを遺伝子に符号化し、認識性能と計算コストを考慮した多目的最適化により最適化した。この他、ディープニューラルネットワークの半教師あり学習や、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組んだ。
また、音声認識システムの学習における自立性を向上させ人における柔軟で強力な学習に近づけるための試みとして、発音辞書の半教師あり学習に取り組んだ。これは、一部の単語にのみ発音が与えられている初期モデルから出発し、コンテキスト情報を手掛かりとすることでラベル付き音声データを用いることなく発音が未知の単語の発音を自動獲得させようとするものである。このために、発音辞書を無限混合モデルとしてモデル化する方法を提案し、ブロックギブスサンプリングを応用したベイズ法による学習アルゴリズムを定式化し、また重み付き有限状態トランスデューサを用いた実装を行った。
本プロジェクトにおいて研究成果を組み込む形で開発した高性能大語彙日本語音声認識システムは、KaldiツールキットのCSJレシピとして容易に利用可能な形で一般公開しており、企業や大学において広く利用されつつある状況である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

前年までの成果を発展させ、音響モデルとともにディープニューラルネットワークを用いた言語モデルについても性能を向上させるためのチューニングを進化的アルゴリズムを用いることで専門家に頼ることなく実現することができた。現在ディープニューラルネットワークの構造や学習条件の最適化は専門家のノウハウや労力に頼る部分が非常に大きいことが問題となっているが、この成果はそのような人的コストを計算機による効率的な計算に置き換えるものである。音響モデルの半教師あり学習については、非母語話者の音声認識について取り組み、出力層を分岐させたディープニューラルネットを用いることで効果的な学習が行えることを確認した。さらに、より高度な学習の自立化を実現するための試みとして発音辞書の半教師あり学習に取り組み、これまでに無い新しい方法の提案と実装を行い、またそのような学習が実際に可能であることを示すことができた。また、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組み、有効な結果を得ることができた。

Strategy for Future Research Activity

音声認識システムにおいて用いられるディープニューラルネットワークを用いた音響モデルや言語モデルについて進化的アルゴリズムを応用することで自動的にネットワーク構造や学習条件を最適化することをこれまで実現したが、今後は最適化をより高度に進めることでより高度な性能を得ることを目指す。また、最適化の対象とするシステムを自動翻訳システムも含める形で拡大する。また、音響モデルや発音辞書の半教師あり学習や教師なし学習についての取り組みを強化する。ベイズ理論やサンプリングを応用した新しい学習アルゴリズムについて、新しいアルゴリズムを提案するとともに、大規模な計算に基づいた評価実験を行う。また、ニューラルネットワークを用いた音声合成・声質変換についても、引き続き取り組む。

Causes of Carryover

大学の計算機センターの計算機が比較的すいており、そちらを多く使用することができたため計算機の購入を先送りしたため。

Expenditure Plan for Carryover Budget

大学の計算機センターにおいて大規模なハードウエアの改修が計画されていること、計算機センターでサポートされていないライブラリを使用したり、利用が制限されている長時間の計算を行う必要のある実験を計画していることから、計算機の購入を予定する。

  • Research Products

    (18 results)

All 2017 2016

All Journal Article (4 results) (of which Int'l Joint Research: 3 results,  Peer Reviewed: 1 results,  Open Access: 1 results,  Acknowledgement Compliant: 4 results) Presentation (14 results) (of which Invited: 3 results)

  • [Journal Article] Evolution Strategy Based Neural Network Optimization and LSTM Language Model for Robust Speech Recognition2016

    • Author(s)
      Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori
    • Journal Title

      Proceedings of the 4th International Workshop on Speech Processing in Everyday Environments CHiME 2016

      Volume: - Pages: 32-35

    • Peer Reviewed / Open Access / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Evolutionary optimization of Long Short-Term Memory neural network language model2016

    • Author(s)
      Tomohiro Tanaka, Takafumi Moriya, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori, Kevin Duh
    • Journal Title

      Journal of the Acoustical Sciety of America

      Volume: 140.4 Pages: 3062-3062

    • DOI

      http://dx.doi.org/10.1121/1.4969532

    • Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Improvement of quality of voice conversion based on spectral differential filter using STRAIGHT-based mel-cepstral coefficients2016

    • Author(s)
      Koike Harunori, Takashi Nose, Takahiro Shinozaki, Akinori Ito
    • Journal Title

      The Journal of the Acoustical Society of America

      Volume: 140.4 Pages: 2963-2963

    • DOI

      http://dx.doi.org/10.1121/1.4969157

    • Acknowledgement Compliant
  • [Journal Article] AUTOMATED STRUCTURE DISCOVERY AND PARAMETER TUNING OF NEURAL NETWORK LANGUAGE MODEL BASED ON EVOLUTION STRATEGY2016

    • Author(s)
      Tomohiro Tanaka, Takafumi Moriya, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori, Kevin Duh
    • Journal Title

      Proc. Spoken Language Technology

      Volume: - Pages: 665-671

    • DOI

      10.1109/SLT.2016.7846334

    • Int'l Joint Research / Acknowledgement Compliant
  • [Presentation] ベイズ的教師なし発音辞書学習のWFST実装およびサンプリングアルゴリズムの検討2017

    • Author(s)
      篠崎隆宏, 渡部晋治, 持橋大地, Graham Neubig
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      明治大学(神奈川県川崎市)
    • Year and Date
      2017-03-15 – 2017-03-17
  • [Presentation] Highwayネットワーク言語モデルを用いた日本語話し言葉音声認識2017

    • Author(s)
      田中智大, 篠崎隆宏, 渡部晋治
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      明治大学(神奈川県川崎市)
    • Year and Date
      2017-03-15 – 2017-03-17
  • [Presentation] 半教師ありDNN学習を用いた日本語スピーキングテスト音声の認識2017

    • Author(s)
      加藤 拓, 篠崎 隆宏
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      明治大学(神奈川県川崎市)
    • Year and Date
      2017-03-15 – 2017-03-17
  • [Presentation] 読み上げ音声を用いたニューラルネットワークによる任意歌唱者歌声声質変換の検討2017

    • Author(s)
      小池治憲,能勢隆,伊藤彰則
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      明治大学(神奈川県川崎市)
    • Year and Date
      2017-03-15 – 2017-03-17
  • [Presentation] 敵対的学習を利用したニューラルネットワークに基づく任意話者声質変換の検討2017

    • Author(s)
      宮本 颯, 能勢 隆, 伊藤鈴乃介, 小池治憲, 伊藤彰則
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      明治大学(神奈川県川崎市)
    • Year and Date
      2017-03-15 – 2017-03-17
  • [Presentation] 第3回Frederick Jelinek記念サマーワークショップでの教師なし発音辞書学習の取り組み2016

    • Author(s)
      篠崎隆宏、渡部晋治、持橋大地、Graham Neubig
    • Organizer
      音声言語処理研究会(SLP)
    • Place of Presentation
      NTT武蔵野研究開発センタ(東京都武蔵野市)
    • Year and Date
      2016-12-20 – 2016-12-21
  • [Presentation] Kaldiツールキットを用いた音声認識システムの構築2016

    • Author(s)
      篠崎隆宏
    • Organizer
      音声研究会(SP)
    • Place of Presentation
      静岡大学(静岡県浜松市)
    • Year and Date
      2016-10-27 – 2016-10-27
    • Invited
  • [Presentation] 日本語話し言葉音声における半教師ありDNN学習の検討2016

    • Author(s)
      加藤 拓, 篠崎 隆宏
    • Organizer
      音声言語処理研究会(SLP)
    • Place of Presentation
      早稲田大学(東京都新宿区)
    • Year and Date
      2016-10-06 – 2016-10-06
  • [Presentation] 大規模進化計算による音声認識システム開発の自動化2016

    • Author(s)
      篠崎隆宏
    • Organizer
      GTC Japan 2016
    • Place of Presentation
      ヒルトン東京お台場(東京都港区)
    • Year and Date
      2016-10-05 – 2016-10-05
    • Invited
  • [Presentation] 進化的戦略を用いたリカレントニューラルネットワーク言語モデルの最適化2016

    • Author(s)
      田中智大, 森谷崇史, 篠崎隆宏, 渡部晋治, 堀貴明, Kevin Duh
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      富山大学(富山県富山市)
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] 連続音声認識におけるLSTMによる単語履歴を考慮した未知語検出法2016

    • Author(s)
      池下裕紀,篠崎隆宏
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      富山大学(富山県富山市)
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] 差分スペクトルフィルタに基づく声質変換における性能向上の検討2016

    • Author(s)
      小池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      富山大学(富山県富山市)
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] 音声認識ツールキットKaldiを用いた大語彙日本語音声認識2016

    • Author(s)
      篠崎隆宏
    • Organizer
      FIT2016
    • Place of Presentation
      富山大学(富山県富山市)
    • Year and Date
      2016-09-07 – 2016-09-09
    • Invited
  • [Presentation] LSTMによる単語履歴を考慮した未知語検出法2016

    • Author(s)
      池下裕紀,篠崎隆宏
    • Organizer
      音声研究会(SP)
    • Place of Presentation
      京都大学(京都市左京区)
    • Year and Date
      2016-08-24 – 2016-08-25

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi