• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Research Project

Project/Area Number 26280055
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠崎 隆宏  東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)

Co-Investigator(Kenkyū-buntansha) Duh Kevin  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) [Withdrawn]
能勢 隆  東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY) 2014-04-01 – 2018-03-31
Keywords音声認識 / 音声合成 / ディープニューラルネットワーク
Outline of Annual Research Achievements

ディープニューラルネットワークの構造最適化について、前年度の小規模または部分的なタスクを用いた実験を発展させ、大語彙音声認識タスクでの研究と実装を進めた。今日の高性能音声認識システムでは、発音記号と音声信号の対応をモデル化する役割を果たす音響モデルとしてディープニューラルネットワークが用いられている。システムに高い認識性能を発現させるためには、ディープニューラルネットワークにどのような構造を持たせるかが重要となる。そこで、音響モデルとして用いられるディープニューラルネットワークの構造を進化計算をもとに自己組織化的に最適化する手法について提案し研究を行った。大規模な計算が必要になることから効率的な進化計算手法を応用するとともに、並列計算を行うソフトウエアを開発し実験をすすめた。その結果、公開されている日本語話し言葉音声認識システムとしては世界トップレベルの認識性能が実現できた。成果は論文等で発表したほか、最適化したシステムは研究コミュニティで共有されているソフトウエアレポジトリを通して一般公開た。公開したシステムは、日本語音声認識のベースラインとして利用されている。また、リカレント構造を持ったニューラルネットワークを用いた言語モデルに同手法を応用し、認識性能をさらに向上させる研究に取り組んでいる。
音響モデルの半教師付き学習のアルゴリズムとして、教師なし学習で学習した疑似音素を用いる手法について実験を進めた。小規模な実験で効果が確認できたことから、同様の枠組みを大語彙音声認識実験に組み込み、実験を進めている。
また、ディープニューラルネットワークを用いた声質変換手法について、声質変換の性能を制約する要因について分析を行い、それに基づいた改善策の研究を進めた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

大規模で複雑なディープニューラルネットワークの構造を自動的に最適化する手法を提案し、大語彙音声認識システムに実装し、認識実験により効果を確認できた。その過程において開発した日本語大語彙音声認識システムおよび提案手法により最適化したディープニューラルネットワークのデザインは研究コミュニティで共有されているソフトウエアレポジトリを通して公開し、日本語音声認識のベースラインとして一般に利用されている。
半教師付き学習アルゴリズムとして、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いる手法について検討を進めた。この手法では、半教師付き学習のプロセスにおいて人手によるラベルデータと疑似ラベルデータを同時に使用するため、出力側が分岐した構造を持つディープニューラルネットワークを用いている。小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進めている。
また、声質変換やその応用タスクへのディープニューラルネットワークの利用について、研究を進めている。
また、本プロジェクトのこれまでの成果をもとに、アメリカやチェコ、ドイツなど海外の大学の研究室とのネットワークを広げることができた。

Strategy for Future Research Activity

これまでループを持たないフィードフォワード型のディープニューラルネットワークを中心に構造の自動最適化手法の研究を進めてきたが、今年度はループ構造を含むより複雑な構造を持ったリカレントニューラルネットワークに対して重点を置いて研究を進める。特に、長・短期記憶レイヤーの利用や活性化関数の種類選択を含めた構造デザインの自動最適化について実装と実験を進める。
モデルパラメタの半教師付き学習について、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いた手法の検討を進める。これまでに小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進める。ただし、本年度において海外で類似した研究の発表があったことから、そちらの動向について注視するとともに本研究で独自となる部分についての研究と実証を急ぐ。疑似音素の半教師付き学習については、海外の研究室との協力も検討する。
Hub型ネットワークにおいて多様な学習を可能とするため、関数形が明示的に与えられていないブラックボックス関数として実現されるコンポーネントの埋め込み方法について検討を進める。具体的には解析的な偏微分に頼らずバックプロパゲーションを実現するアルゴリズムの検討と実装を進める。
また、成果発表の一形態として研究コミュニティで共有されているソフトウエアレポジトリを介して日本語音声認識システムを公開しているが、研究の進展に合わせて公開ソフトウエアのアップデートを行う。

Causes of Carryover

大学計算機センターのスーパーコンピューターの利用について、年度末近くはジョブの混雑のため一定量のタスクを計画通りに実行するために実質的に高い使用量が必要になることを予測していたが、昨年度と比べて混雑が幾分少なかったことから利用ポイントのチャージを減額したことと、スーパーコンピューターでのジョブの実行を前提に研究室内での計算サーバー用PC一台分の購入を控えたことによる。なお実際にはその後チャージポイントの不足が懸念される状況になり、結果的にはチャージが可能な12月中により多くの使用ポイントをチャージしておくべきであった。

Expenditure Plan for Carryover Budget

これまでの研究の過程でソフトウエアの実装が進み、今後大規模計算実験を多く実行することになる。そのため、研究室内で計算サーバーやストレージとして用いるハードウエアを購入するための費用や、大学計算機センターのスーパーコンピュータの使用料として使用する。また、学会等での成果発表のための費用としても使用する。

  • Research Products

    (16 results)

All 2016 2015 Other

All Int'l Joint Research (1 results) Journal Article (3 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 3 results,  Acknowledgement Compliant: 2 results) Presentation (12 results)

  • [Int'l Joint Research] MERL/Johns Hopkins University(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      MERL/Johns Hopkins University
  • [Journal Article] Structure discovery of deep neural network based on evolutionary algorithms2015

    • Author(s)
      Takahiro Shinozaki, Shinji Watanabe
    • Journal Title

      Proc. IEEE ICASSP

      Volume: 1 Pages: 4979-4983

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting2015

    • Author(s)
      Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito
    • Journal Title

      Proc. IIH-MSP

      Volume: 1 Pages: 433-436

    • DOI

      DOI 10.1109/IIH-MSP.2015.85

    • Peer Reviewed
  • [Journal Article] Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition Using Evolution Strategy2015

    • Author(s)
      Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
    • Journal Title

      Proc. IEEE ASRU

      Volume: 1 Pages: 610-616

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Presentation] 声質変換における学習時のDTW精度が性能に与える影響2016

    • Author(s)
      小池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      日本音響学会
    • Place of Presentation
      桐蔭横浜大学 (神奈川横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] 入力話者非依存ニューラルネットワークに基づく差分スペクトルフィルタを用いた声質変換における学習データ量の影響2016

    • Author(s)
      池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      日本音響学会
    • Place of Presentation
      桐蔭横浜大学 (神奈川横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] Kaldi用CSJレシピへのRNN言語モデルの導入と性能評価2016

    • Author(s)
      田中 智大,森谷 崇史,篠崎 隆宏,渡部 晋治,堀 貴明
    • Organizer
      日本音響学会
    • Place of Presentation
      桐蔭横浜大学 (神奈川横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] 進化的戦略による高精度大語彙音声認識システムの多目的最適化2016

    • Author(s)
      森谷 崇史,田中 智大,篠崎 隆宏,渡部 晋治,Duh Kevin
    • Organizer
      日本音響学会
    • Place of Presentation
      桐蔭横浜大学 (神奈川横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] 粒子フィルタとガウス過程回帰によるシングルチャネル音源分離2016

    • Author(s)
      博多屋涼, 篠崎隆宏, 郡山知樹
    • Organizer
      情報処理学会 SLP研究会
    • Place of Presentation
      越中つるぎ温泉(富山県上市町)
    • Year and Date
      2016-02-05 – 2016-02-06
  • [Presentation] KaldiにおけるCSJレシピの利用法2016

    • Author(s)
      篠崎隆宏, 森谷崇史, 田中智大, 渡部晋治
    • Organizer
      情報処理学会 SLP研究会
    • Place of Presentation
      越中つるぎ温泉(富山県上市町)
    • Year and Date
      2016-02-05 – 2016-02-06
  • [Presentation] パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化2015

    • Author(s)
      森谷崇史, 田中智大・篠崎隆宏, 渡部晋治, Duh, Kevin
    • Organizer
      電子情報通信学会 音声研究会
    • Place of Presentation
      名古屋工業大学(名古屋市昭和区御器所町)
    • Year and Date
      2015-12-02 – 2015-12-03
  • [Presentation] DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討2015

    • Author(s)
      齋藤優貴, 能勢隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      電子情報通信学会 EMM研究会
    • Place of Presentation
      熊本大学(熊本県熊本市 黒髪南キャンパス)
    • Year and Date
      2015-11-12 – 2015-11-13
  • [Presentation] ニューラルネットワークに基づく差分スペクトルフィルタを用いた任意話者声質変換の検討2015

    • Author(s)
      小池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      電子情報通信学会 音声研究会
    • Place of Presentation
      神戸大学(兵庫県神戸市)
    • Year and Date
      2015-10-15 – 2015-10-16
  • [Presentation] 高精度日本語話し言葉音声認識のためのKaldiレシピとその評価2015

    • Author(s)
      森谷崇史,篠崎隆宏,渡部晋治
    • Organizer
      日本音響学会
    • Place of Presentation
      会津大学(福島県会津若松市)
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] DNN特徴量抽出器に基づく単語検出器のFPGA実装と評価2015

    • Author(s)
      朱凱,李昊霖,篠崎隆宏,堀内靖雄,黒岩眞吾
    • Organizer
      日本音響学会
    • Place of Presentation
      会津大学(福島県会津若松市)
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] ビデオ通話における音声および表情特徴量を用いた話者変換の検討2015

    • Author(s)
      齋藤優貴, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • Organizer
      EMM研究会
    • Place of Presentation
      京都市国際交流会館(京都市左京区)
    • Year and Date
      2015-05-21 – 2015-05-22

URL: 

Published: 2017-01-06   Modified: 2022-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi