2017 Fiscal Year Research-status Report

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

Research Project

Project/Area Number	17K20001
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	持橋大地統計数理研究所, 数理・推論研究系, 准教授 (80418508)
Project Period (FY)	2017-06-30 – 2019-03-31
Keywords	音声認識 / 半教師あり学習 / 発音辞書 / 強化学習 / ノンパラメトリックベイズ法
Outline of Annual Research Achievements	現在、音声認識システムの認識性能はタスクによっては人と同程度まで向上した。しかし、システムの学習が教師あり学習に著しく依存している問題がある。人手による大量の音声データの書き起こしや発音辞書の整備が必要であり、高い認識性能の実現には大変な開発コストが必要とされている。さらに認識タスクの違いに対して脆弱なため、同じ言語であっても新しいタスクに対しては再度データ収集を行う必要がある。このため、実際に高い認識精度が実現出来ているのは一部の言語の限られたタスクのみである。音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。同じ発話に対する音素データとテキストデータの対を必要とせず、別々に収集した音素データとテキストデータを活用できる点が特徴である。これまでに英語および日本語のデータを用いた実験において、実際にそのような学習が可能であることを示した。また、音素データとして、音声認識システムからの認識仮説を用いた場合においても、同様の効果が得られることを確認した。これは、例えばインターネットや書籍からのテキストデータと、それとは独立した自然発話音声から録音した音声データを用いて、自動的に発音辞書を拡張していくことが原理的に可能であることを示すものである。人間が日常生活の中で自然に語彙を拡張していくプロセスと同様の機能であり、音声認識システムの学習の柔軟性を向上させる成果である。またこの他、音声言語情報処理システムとユーザーのインタラクションを通してシステム性能を自動的に改善する仕組みについても研究を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ノンパラメトリックベイズ法を応用した発音辞書を重み付き有限状態トランスデューサの仕組みを用いてシームレスに言語モデル等と結合し、実験により有効性を示した。また、半自動でシステムを最適化する仕組みや、強化学習についても検討を行った。
Strategy for Future Research Activity	音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。
Causes of Carryover	実験で使用するソフトウエアの開発に想定よりも時間を要したこと、研究計画時の想定よりも予算が利用可能となった時期が遅かったことによる。繰り越した予算は、今後大規模な計算を必要とする計算機実験を効率的に進めるためのハードウエアの増強等に使用を予定する。その他、成果発表やデータ整備、クラウド計算リソースの使用料等に予算の支出を行う。

Research Products
(15 results)

All 2018 2017 Other

All Int'l Joint Research (1 results) Journal Article (7 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (7 results) (of which Int'l Joint Research: 2 results)

[Int'l Joint Research] Johns Hopkins University/Carnegie Mellon University/MERL(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Johns Hopkins University/Carnegie Mellon University/MERL
[Journal Article] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018
- Author(s)
  池下裕紀, 篠崎隆宏
- Journal Title
  
  日本音響学会2018年春季研究発表会講演論文集
  
  Volume: - Pages: 123～124
[Journal Article] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018
- Author(s)
  加藤拓, 篠崎隆宏
- Journal Title
  
  日本音響学会2018年春季研究発表会講演論文集
  
  Volume: - Pages: 15～16
[Journal Article] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018
- Author(s)
  鄭崇輝，李知雨，王文博，庄佰融，篠崎隆宏
- Journal Title
  
  日本音響学会2018年春季研究発表会講演論文集
  
  Volume: - Pages: 125～126
[Journal Article] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017
- Author(s)
  Hao Qin, Takahiro Shinozaki, Kevin Duh
- Journal Title
  
  Proc. International Workshop on Spoken Language Translation (IWSLT)
  
  Volume: - Pages: 120～128
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017
- Author(s)
  Zhuang Bairong, Wang Wenbo, Li Zhiyu, Zheng Chonghui, Takahiro Shinozaki
- Journal Title
  
  Proc. Dialog System Technology Challenges (DSTC6)
  
  Volume: - Pages: 1～5
- Peer Reviewed / Open Access
[Journal Article] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017
- Author(s)
  加藤拓, 篠崎隆宏
- Journal Title
  
  情報処理学会研究報告
  
  Volume: Vol.2017-SLP-119 Pages: 1～4
[Journal Article] ベイズ推論を用いた半教師あり学習の日本語適用2017
- Author(s)
  池下裕紀, 篠崎隆宏, 渡部晋治, 持橋大地, Graham Neubig
- Journal Title
  
  情報処理学会研究報告
  
  Volume: Vol.2017-SLP-118 Pages: 1～4
- Int'l Joint Research
[Presentation] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018
- Author(s)
  池下裕紀
- Organizer
  日本音響学会春季研究発表会
[Presentation] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018
- Author(s)
  加藤拓
- Organizer
  日本音響学会春季研究発表会
[Presentation] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018
- Author(s)
  鄭崇輝
- Organizer
  日本音響学会春季研究発表会
[Presentation] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017
- Author(s)
  Hao Qin
- Organizer
  International Workshop on Spoken Language Translation
- Int'l Joint Research
[Presentation] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017
- Author(s)
  Zhuang Bairong
- Organizer
  Dialog System Technology Challenges (DSTC6)
- Int'l Joint Research
[Presentation] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017
- Author(s)
  加藤拓
- Organizer
  情報処理学会音声言語情報処理研究会
[Presentation] ベイズ推論を用いた半教師あり学習の日本語適用2017
- Author(s)
  池下裕紀
- Organizer
  情報処理学会音声言語情報処理研究会

2017 Fiscal Year Research-status Report

全ベイズモデルに基づく音声認識システム学習のデータ無制約化

Principal Investigator

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] Johns Hopkins University/Carnegie Mellon University/MERL(米国)

Country Name

Counterpart Institution

[Journal Article] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

Author(s)

Journal Title

[Journal Article] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

Author(s)

Journal Title

[Journal Article] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

Author(s)

Journal Title

[Journal Article] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

Author(s)

Journal Title

[Journal Article] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

Author(s)

Journal Title

[Journal Article] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

Author(s)

Journal Title

[Journal Article] ベイズ推論を用いた半教師あり学習の日本語適用2017

Author(s)

Journal Title

[Presentation] 音声認識仮説を用いたベイズ的半教師あり発音辞書学習の検討2018

Author(s)

Organizer

[Presentation] 方策勾配法と仮説選択に基づくDNN音声認識システムの強化学習2018

Author(s)

Organizer

[Presentation] End-to-Endニューラル対話モデルにおける単語分散表現の比較検討2018

Author(s)

Organizer

[Presentation] Evolution Strategy Based Automatic Tuning of Neural Machine Translation Systems2017

Author(s)

Organizer

[Presentation] Comparative Analysis of Word Embedding Methods for DSTC6 End-to-End Conversation Modeling Track[C]2017

Author(s)

Organizer

[Presentation] 英語学習者の発声自動評価を目的としたDNN音声認識システムの検討2017

Author(s)

Organizer

[Presentation] ベイズ推論を用いた半教師あり学習の日本語適用2017

Author(s)

Organizer

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)