• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実施状況報告書

語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化

研究課題

研究課題/領域番号 25540064
研究機関東京大学

研究代表者

峯松 信明  東京大学, 工学(系)研究科(研究院), 教授 (90273333)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード音声認識 / 韻律的特徴 / 仮説探索 / リランキング / アクセント核
研究実績の概要

音声を文字化(音韻列化)する音声認識技術において「音韻は韻律的特徴と独立である」との理由から,韻律的特徴を排除して得られる音韻的特徴(スペクトル包絡)を特徴量として用いることが常套手段となっている。しかし,音声を単語列・句列・文列と考えれば,時間的に音韻を超えて存在する韻律的特徴が存在することは自明である。また多くの知覚実験は韻律による円滑な(人間による) 音声 情報処理過程の存在を示している。にも拘わらず韻律を排除して技術構築されてきた理由は,韻律の多様性に対処できる技術が未熟で あったことに因る。本研究では語彙レベルの韻律に焦点を当て, 申請者が構築した韻律的情報の高精度予測技術を大語彙連続音声認識 に適用し,その高精度化を狙う。本年度の成果は,読み上げ音声を対象としたアクセント核位置推定技術を,自然音声に適応する予備検討に留まったが,一定の成果が得られた。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

自然音声からのアクセント核位置推定については,複数の候補として仮説を出力する形で検討している。これらをリランキング時にどう利用するのかについては十分な時間を充てることができずに次年度に持ち越しとなった。

今後の研究の推進方策

自然音声からのアクセント核位置仮説(複数)をリランキング処理に組み込むことで,音声認識精度の向上を狙う。

次年度使用額が生じた理由

本研究は自然音声から推定されたアクセント核位置推定を,音声認識仮説のリランキングに使うことを目的としている。読み上げではなく,自然音声を対象にすると,第一位候補のみでは精度の下落が激しいため,複数のアクセント核位置仮説を残すこととした。その結果,リランキングでの利用方法について新たにアルゴリズムを開発する必要が生じた。この部分の技術開発を次年度でも行なうことを考え,予算の一部を繰り越した。

次年度使用額の使用計画

アクセント核位置仮説と音声認識仮説とを組み合わせて最終的なリランキング結果を得る処理形を構築する必要がありここに充てる。また,研究成果発表を目的として使用することも考えている。

  • 研究成果

    (4件)

すべて 2015 2014

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

  • [雑誌論文] 基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用2015

    • 著者名/発表者名
      橋本浩弥,齋藤大輔,峯松信明,広瀬啓吉
    • 雑誌名

      電子情報通信学会和文論文誌,

      巻: J98-D ページ: 481-491

    • 査読あり
  • [雑誌論文] Leveraging phonetic context dependent invariant structure for continous speech recognition2014

    • 著者名/発表者名
      C. Zhang, M. Suzuki, G. Kurata, M. Nishimura, N. Minematsu
    • 雑誌名

      oc. IEEE China Summit & International Conference on Signal and Information Processing

      巻: 1 ページ: 52-56

    • DOI

      10.1109/ChinaSIP.2014.6889200

    • 査読あり
  • [雑誌論文] Semi-supervised noise dictionary adaptation for exemplar-based noise robust speech recognition2014

    • 著者名/発表者名
      Y. Luan, D. Saito, Y. Kashiwagi, N. Minematsu, K. Hirose
    • 雑誌名

      Proc. ICASSP

      巻: 1 ページ: 1764-1767

    • 査読あり
  • [学会発表] 制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習2014

    • 著者名/発表者名
      木陽佑,齋藤大輔,峯松信明,広瀬啓吉
    • 学会等名
      日本音響学会
    • 発表場所
      北海学園大学(北海道・札幌)
    • 年月日
      2014-09-03 – 2014-09-03

URL: 

公開日: 2016-06-03  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi