• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実績報告書

音声認識生成システムの自己組織化学習

研究課題

研究課題/領域番号 26280055
研究機関東京工業大学

研究代表者

篠崎 隆宏  東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)

研究分担者 Duh Kevin  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) [辞退]
能勢 隆  東北大学, 工学(系)研究科(研究院), 講師 (90550591)
研究期間 (年度) 2014-04-01 – 2018-03-31
キーワード音声認識 / 音声合成 / ディープニューラルネットワーク
研究実績の概要

ディープニューラルネットワークの構造最適化について、前年度の小規模または部分的なタスクを用いた実験を発展させ、大語彙音声認識タスクでの研究と実装を進めた。今日の高性能音声認識システムでは、発音記号と音声信号の対応をモデル化する役割を果たす音響モデルとしてディープニューラルネットワークが用いられている。システムに高い認識性能を発現させるためには、ディープニューラルネットワークにどのような構造を持たせるかが重要となる。そこで、音響モデルとして用いられるディープニューラルネットワークの構造を進化計算をもとに自己組織化的に最適化する手法について提案し研究を行った。大規模な計算が必要になることから効率的な進化計算手法を応用するとともに、並列計算を行うソフトウエアを開発し実験をすすめた。その結果、公開されている日本語話し言葉音声認識システムとしては世界トップレベルの認識性能が実現できた。成果は論文等で発表したほか、最適化したシステムは研究コミュニティで共有されているソフトウエアレポジトリを通して一般公開た。公開したシステムは、日本語音声認識のベースラインとして利用されている。また、リカレント構造を持ったニューラルネットワークを用いた言語モデルに同手法を応用し、認識性能をさらに向上させる研究に取り組んでいる。
音響モデルの半教師付き学習のアルゴリズムとして、教師なし学習で学習した疑似音素を用いる手法について実験を進めた。小規模な実験で効果が確認できたことから、同様の枠組みを大語彙音声認識実験に組み込み、実験を進めている。
また、ディープニューラルネットワークを用いた声質変換手法について、声質変換の性能を制約する要因について分析を行い、それに基づいた改善策の研究を進めた。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

大規模で複雑なディープニューラルネットワークの構造を自動的に最適化する手法を提案し、大語彙音声認識システムに実装し、認識実験により効果を確認できた。その過程において開発した日本語大語彙音声認識システムおよび提案手法により最適化したディープニューラルネットワークのデザインは研究コミュニティで共有されているソフトウエアレポジトリを通して公開し、日本語音声認識のベースラインとして一般に利用されている。
半教師付き学習アルゴリズムとして、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いる手法について検討を進めた。この手法では、半教師付き学習のプロセスにおいて人手によるラベルデータと疑似ラベルデータを同時に使用するため、出力側が分岐した構造を持つディープニューラルネットワークを用いている。小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進めている。
また、声質変換やその応用タスクへのディープニューラルネットワークの利用について、研究を進めている。
また、本プロジェクトのこれまでの成果をもとに、アメリカやチェコ、ドイツなど海外の大学の研究室とのネットワークを広げることができた。

今後の研究の推進方策

これまでループを持たないフィードフォワード型のディープニューラルネットワークを中心に構造の自動最適化手法の研究を進めてきたが、今年度はループ構造を含むより複雑な構造を持ったリカレントニューラルネットワークに対して重点を置いて研究を進める。特に、長・短期記憶レイヤーの利用や活性化関数の種類選択を含めた構造デザインの自動最適化について実装と実験を進める。
モデルパラメタの半教師付き学習について、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いた手法の検討を進める。これまでに小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進める。ただし、本年度において海外で類似した研究の発表があったことから、そちらの動向について注視するとともに本研究で独自となる部分についての研究と実証を急ぐ。疑似音素の半教師付き学習については、海外の研究室との協力も検討する。
Hub型ネットワークにおいて多様な学習を可能とするため、関数形が明示的に与えられていないブラックボックス関数として実現されるコンポーネントの埋め込み方法について検討を進める。具体的には解析的な偏微分に頼らずバックプロパゲーションを実現するアルゴリズムの検討と実装を進める。
また、成果発表の一形態として研究コミュニティで共有されているソフトウエアレポジトリを介して日本語音声認識システムを公開しているが、研究の進展に合わせて公開ソフトウエアのアップデートを行う。

次年度使用額が生じた理由

大学計算機センターのスーパーコンピューターの利用について、年度末近くはジョブの混雑のため一定量のタスクを計画通りに実行するために実質的に高い使用量が必要になることを予測していたが、昨年度と比べて混雑が幾分少なかったことから利用ポイントのチャージを減額したことと、スーパーコンピューターでのジョブの実行を前提に研究室内での計算サーバー用PC一台分の購入を控えたことによる。なお実際にはその後チャージポイントの不足が懸念される状況になり、結果的にはチャージが可能な12月中により多くの使用ポイントをチャージしておくべきであった。

次年度使用額の使用計画

これまでの研究の過程でソフトウエアの実装が進み、今後大規模計算実験を多く実行することになる。そのため、研究室内で計算サーバーやストレージとして用いるハードウエアを購入するための費用や、大学計算機センターのスーパーコンピュータの使用料として使用する。また、学会等での成果発表のための費用としても使用する。

  • 研究成果

    (16件)

すべて 2016 2015 その他

すべて 国際共同研究 (1件) 雑誌論文 (3件) (うち国際共著 2件、 査読あり 3件、 謝辞記載あり 2件) 学会発表 (12件)

  • [国際共同研究] MERL/Johns Hopkins University(米国)

    • 国名
      米国
    • 外国機関名
      MERL/Johns Hopkins University
  • [雑誌論文] Structure discovery of deep neural network based on evolutionary algorithms2015

    • 著者名/発表者名
      Takahiro Shinozaki, Shinji Watanabe
    • 雑誌名

      Proc. IEEE ICASSP

      巻: 1 ページ: 4979-4983

    • 査読あり / 国際共著 / 謝辞記載あり
  • [雑誌論文] Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting2015

    • 著者名/発表者名
      Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito
    • 雑誌名

      Proc. IIH-MSP

      巻: 1 ページ: 433-436

    • DOI

      DOI 10.1109/IIH-MSP.2015.85

    • 査読あり
  • [雑誌論文] Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition Using Evolution Strategy2015

    • 著者名/発表者名
      Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
    • 雑誌名

      Proc. IEEE ASRU

      巻: 1 ページ: 610-616

    • 査読あり / 国際共著 / 謝辞記載あり
  • [学会発表] 声質変換における学習時のDTW精度が性能に与える影響2016

    • 著者名/発表者名
      小池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • 学会等名
      日本音響学会
    • 発表場所
      桐蔭横浜大学 (神奈川横浜市)
    • 年月日
      2016-03-09 – 2016-03-11
  • [学会発表] 入力話者非依存ニューラルネットワークに基づく差分スペクトルフィルタを用いた声質変換における学習データ量の影響2016

    • 著者名/発表者名
      池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • 学会等名
      日本音響学会
    • 発表場所
      桐蔭横浜大学 (神奈川横浜市)
    • 年月日
      2016-03-09 – 2016-03-11
  • [学会発表] Kaldi用CSJレシピへのRNN言語モデルの導入と性能評価2016

    • 著者名/発表者名
      田中 智大,森谷 崇史,篠崎 隆宏,渡部 晋治,堀 貴明
    • 学会等名
      日本音響学会
    • 発表場所
      桐蔭横浜大学 (神奈川横浜市)
    • 年月日
      2016-03-09 – 2016-03-11
  • [学会発表] 進化的戦略による高精度大語彙音声認識システムの多目的最適化2016

    • 著者名/発表者名
      森谷 崇史,田中 智大,篠崎 隆宏,渡部 晋治,Duh Kevin
    • 学会等名
      日本音響学会
    • 発表場所
      桐蔭横浜大学 (神奈川横浜市)
    • 年月日
      2016-03-09 – 2016-03-11
  • [学会発表] 粒子フィルタとガウス過程回帰によるシングルチャネル音源分離2016

    • 著者名/発表者名
      博多屋涼, 篠崎隆宏, 郡山知樹
    • 学会等名
      情報処理学会 SLP研究会
    • 発表場所
      越中つるぎ温泉(富山県上市町)
    • 年月日
      2016-02-05 – 2016-02-06
  • [学会発表] KaldiにおけるCSJレシピの利用法2016

    • 著者名/発表者名
      篠崎隆宏, 森谷崇史, 田中智大, 渡部晋治
    • 学会等名
      情報処理学会 SLP研究会
    • 発表場所
      越中つるぎ温泉(富山県上市町)
    • 年月日
      2016-02-05 – 2016-02-06
  • [学会発表] パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化2015

    • 著者名/発表者名
      森谷崇史, 田中智大・篠崎隆宏, 渡部晋治, Duh, Kevin
    • 学会等名
      電子情報通信学会 音声研究会
    • 発表場所
      名古屋工業大学(名古屋市昭和区御器所町)
    • 年月日
      2015-12-02 – 2015-12-03
  • [学会発表] DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討2015

    • 著者名/発表者名
      齋藤優貴, 能勢隆, 篠崎隆宏, 伊藤彰則
    • 学会等名
      電子情報通信学会 EMM研究会
    • 発表場所
      熊本大学(熊本県熊本市 黒髪南キャンパス)
    • 年月日
      2015-11-12 – 2015-11-13
  • [学会発表] ニューラルネットワークに基づく差分スペクトルフィルタを用いた任意話者声質変換の検討2015

    • 著者名/発表者名
      小池治憲, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • 学会等名
      電子情報通信学会 音声研究会
    • 発表場所
      神戸大学(兵庫県神戸市)
    • 年月日
      2015-10-15 – 2015-10-16
  • [学会発表] 高精度日本語話し言葉音声認識のためのKaldiレシピとその評価2015

    • 著者名/発表者名
      森谷崇史,篠崎隆宏,渡部晋治
    • 学会等名
      日本音響学会
    • 発表場所
      会津大学(福島県会津若松市)
    • 年月日
      2015-09-16 – 2015-09-18
  • [学会発表] DNN特徴量抽出器に基づく単語検出器のFPGA実装と評価2015

    • 著者名/発表者名
      朱凱,李昊霖,篠崎隆宏,堀内靖雄,黒岩眞吾
    • 学会等名
      日本音響学会
    • 発表場所
      会津大学(福島県会津若松市)
    • 年月日
      2015-09-16 – 2015-09-18
  • [学会発表] ビデオ通話における音声および表情特徴量を用いた話者変換の検討2015

    • 著者名/発表者名
      齋藤優貴, 能勢 隆, 篠崎隆宏, 伊藤彰則
    • 学会等名
      EMM研究会
    • 発表場所
      京都市国際交流会館(京都市左京区)
    • 年月日
      2015-05-21 – 2015-05-22

URL: 

公開日: 2017-01-06   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi