2014 Fiscal Year Research-status Report

語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化

Research Project

Project/Area Number	25540064
Research Institution	The University of Tokyo
Principal Investigator	峯松信明東京大学, 工学(系)研究科(研究院), 教授 (90273333)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声認識 / 韻律的特徴 / 仮説探索 / リランキング / アクセント核
Outline of Annual Research Achievements	音声を文字化(音韻列化)する音声認識技術において「音韻は韻律的特徴と独立である」との理由から,韻律的特徴を排除して得られる音韻的特徴(スペクトル包絡)を特徴量として用いることが常套手段となっている。しかし，音声を単語列・句列・文列と考えれば，時間的に音韻を超えて存在する韻律的特徴が存在することは自明である。また多くの知覚実験は韻律による円滑な(人間による) 音声情報処理過程の存在を示している。にも拘わらず韻律を排除して技術構築されてきた理由は,韻律の多様性に対処できる技術が未熟であったことに因る。本研究では語彙レベルの韻律に焦点を当て, 申請者が構築した韻律的情報の高精度予測技術を大語彙連続音声認識に適用し,その高精度化を狙う。本年度の成果は，読み上げ音声を対象としたアクセント核位置推定技術を，自然音声に適応する予備検討に留まったが，一定の成果が得られた。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 自然音声からのアクセント核位置推定については，複数の候補として仮説を出力する形で検討している。これらをリランキング時にどう利用するのかについては十分な時間を充てることができずに次年度に持ち越しとなった。
Strategy for Future Research Activity	自然音声からのアクセント核位置仮説（複数）をリランキング処理に組み込むことで，音声認識精度の向上を狙う。
Causes of Carryover	本研究は自然音声から推定されたアクセント核位置推定を，音声認識仮説のリランキングに使うことを目的としている。読み上げではなく，自然音声を対象にすると，第一位候補のみでは精度の下落が激しいため，複数のアクセント核位置仮説を残すこととした。その結果，リランキングでの利用方法について新たにアルゴリズムを開発する必要が生じた。この部分の技術開発を次年度でも行なうことを考え,予算の一部を繰り越した。
Expenditure Plan for Carryover Budget	アクセント核位置仮説と音声認識仮説とを組み合わせて最終的なリランキング結果を得る処理形を構築する必要がありここに充てる。また，研究成果発表を目的として使用することも考えている。

Research Products
(4 results)

All 2015 2014

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] 基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用2015
- Author(s)
  橋本浩弥，齋藤大輔，峯松信明，広瀬啓吉
- Journal Title
  
  電子情報通信学会和文論文誌，
  
  Volume: J98-D Pages: 481-491
- Peer Reviewed
[Journal Article] Leveraging phonetic context dependent invariant structure for continous speech recognition2014
- Author(s)
  C. Zhang, M. Suzuki, G. Kurata, M. Nishimura, N. Minematsu
- Journal Title
  
  oc. IEEE China Summit & International Conference on Signal and Information Processing
  
  Volume: 1 Pages: 52-56
- DOI
  10.1109/ChinaSIP.2014.6889200
- Peer Reviewed
[Journal Article] Semi-supervised noise dictionary adaptation for exemplar-based noise robust speech recognition2014
- Author(s)
  Y. Luan, D. Saito, Y. Kashiwagi, N. Minematsu, K. Hirose
- Journal Title
  
  Proc. ICASSP
  
  Volume: 1 Pages: 1764-1767
- Peer Reviewed
[Presentation] 制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習2014
- Author(s)
  木陽佑，齋藤大輔，峯松信明，広瀬啓吉
- Organizer
  日本音響学会
- Place of Presentation
  北海学園大学（北海道・札幌）
- Year and Date
  2014-09-03 – 2014-09-03

2014 Fiscal Year Research-status Report

語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化

Principal Investigator

峯松 信明 東京大学, 工学(系)研究科(研究院), 教授 (90273333)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用2015

Author(s)

Journal Title

[Journal Article] Leveraging phonetic context dependent invariant structure for continous speech recognition2014

Author(s)

Journal Title

DOI

[Journal Article] Semi-supervised noise dictionary adaptation for exemplar-based noise robust speech recognition2014

Author(s)

Journal Title

[Presentation] 制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習2014

Author(s)

Organizer

Place of Presentation

Year and Date

峯松信明東京大学, 工学(系)研究科(研究院), 教授 (90273333)