• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

研究課題

研究課題/領域番号 17K20001
研究機関東京工業大学

研究代表者

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

研究分担者 持橋 大地  統計数理研究所, 数理・推論研究系, 准教授 (80418508)
研究期間 (年度) 2017-06-30 – 2019-03-31
キーワード音声認識 / 半教師あり学習 / 発音辞書 / 強化学習 / ノンパラメトリックベイズ法
研究実績の概要

現在、音声認識システムの認識性能はタスクによっては人と同程度まで向上した。しかし、システムの学習が教師あり学習に著しく依存している問題がある。人手による大量の音声データの書き起こしや発音辞書の整備が必要であり、高い認識性能の実現には大変な開発コストが必要とされている。さらに認識タスクの違いに対して脆弱なため、同じ言語であっても新しいタスクに対しては再度データ収集を行う必要がある。このため、実際に高い認識精度が実現出来ているのは一部の言語の限られたタスクのみである。音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。
本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。同じ発話に対する音素データとテキストデータの対を必要とせず、別々に収集した音素データとテキストデータを活用できる点が特徴である。これまでに英語および日本語のデータを用いた実験において、実際にそのような学習が可能であることを示した。また、音素データとして、音声認識システムからの認識仮説を用いた場合においても、同様の効果が得られることを確認した。これは、例えばインターネットや書籍からのテキストデータと、それとは独立した自然発話音声から録音した音声データを用いて、自動的に発音辞書を拡張していくことが原理的に可能であることを示すものである。人間が日常生活の中で自然に語彙を拡張していくプロセスと同様の機能であり、音声認識システムの学習の柔軟性を向上させる成果である。またこの他、音声言語情報処理システムとユーザーのインタラクションを通してシステム性能を自動的に改善する仕組みについても研究を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

ノンパラメトリックベイズ法を応用した発音辞書を重み付き有限状態トランスデューサの仕組みを用いてシームレスに言語モデル等と結合し、実験により有効性を示した。また、半自動でシステムを最適化する仕組みや、強化学習についても検討を行った。

今後の研究の推進方策

音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。

次年度使用額が生じた理由

実験で使用するソフトウエアの開発に想定よりも時間を要したこと、研究計画時の想定よりも予算が利用可能となった時期が遅かったことによる。繰り越した予算は、今後大規模な計算を必要とする計算機実験を効率的に進めるためのハードウエアの増強等に使用を予定する。その他、成果発表やデータ整備、クラウド計算リソースの使用料等に予算の支出を行う。

  • 研究成果

    (15件)

すべて 2018 2017 その他

すべて 国際共同研究 (1件) 雑誌論文 (7件) (うち国際共著 2件、 査読あり 2件、 オープンアクセス 2件) 学会発表 (7件) (うち国際学会 2件)

  • [国際共同研究] Johns Hopkins University/Carnegie Mellon University/MERL(米国)

    • 国名
      米国
    • 外国機関名
      Johns Hopkins University/Carnegie Mellon University/MERL
  • [雑誌論文] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

    • 著者名/発表者名
      池下裕紀, 篠崎隆宏
    • 雑誌名

      日本音響学会2018年春季研究発表会講演論文集

      巻: - ページ: 123~124

  • [雑誌論文] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

    • 著者名/発表者名
      加藤拓, 篠崎隆宏
    • 雑誌名

      日本音響学会2018年春季研究発表会講演論文集

      巻: - ページ: 15~16

  • [雑誌論文] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

    • 著者名/発表者名
      鄭 崇輝,李 知雨,王 文博,庄 佰融,篠崎 隆宏
    • 雑誌名

      日本音響学会2018年春季研究発表会講演論文集

      巻: - ページ: 125~126

  • [雑誌論文] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

    • 著者名/発表者名
      Hao Qin, Takahiro Shinozaki, Kevin Duh
    • 雑誌名

      Proc. International Workshop on Spoken Language Translation (IWSLT)

      巻: - ページ: 120~128

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

    • 著者名/発表者名
      Zhuang Bairong, Wang Wenbo, Li Zhiyu, Zheng Chonghui, Takahiro Shinozaki
    • 雑誌名

      Proc. Dialog System Technology Challenges (DSTC6)

      巻: - ページ: 1~5

    • 査読あり / オープンアクセス
  • [雑誌論文] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

    • 著者名/発表者名
      加藤 拓, 篠崎 隆宏
    • 雑誌名

      情報処理学会研究報告

      巻: Vol.2017-SLP-119 ページ: 1~4

  • [雑誌論文] ベイズ推論を用いた半教師あり学習の日本語適用2017

    • 著者名/発表者名
      池下裕紀, 篠崎隆宏, 渡部晋治, 持橋大地, Graham Neubig
    • 雑誌名

      情報処理学会研究報告

      巻: Vol.2017-SLP-118 ページ: 1~4

    • 国際共著
  • [学会発表] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

    • 著者名/発表者名
      池下 裕紀
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

    • 著者名/発表者名
      加藤 拓
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

    • 著者名/発表者名
      鄭 崇輝
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

    • 著者名/発表者名
      Hao Qin
    • 学会等名
      International Workshop on Spoken Language Translation
    • 国際学会
  • [学会発表] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

    • 著者名/発表者名
      Zhuang Bairong
    • 学会等名
      Dialog System Technology Challenges (DSTC6)
    • 国際学会
  • [学会発表] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

    • 著者名/発表者名
      加藤 拓
    • 学会等名
      情報処理学会音声言語情報処理研究会
  • [学会発表] ベイズ推論を用いた半教師あり学習の日本語適用2017

    • 著者名/発表者名
      池下 裕紀
    • 学会等名
      情報処理学会音声言語情報処理研究会

URL: 

公開日: 2018-12-17   更新日: 2022-02-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi