2013 年度実施状況報告書

語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化

研究課題

研究課題/領域番号	25540064
研究種目	挑戦的萌芽研究
研究機関	東京大学
研究代表者	峯松信明東京大学, 工学(系)研究科(研究院), 教授 (90273333)
研究期間 (年度)	2013-04-01 – 2015-03-31
キーワード	音声認識 / 韻律的特徴 / 仮説探索 / リランキング / アクセント核
研究概要	音声を文字化（音韻列化）する音声認識技術において「音韻は韻律的特徴と独立である」との理由から，韻律的特徴を排除して得られる音韻的特徴(スペクトル包絡)を特徴量として用いることが常套手段となっている。しかし,音声を単語列・句列・文列と考えれば,時間的に音韻を超えて存在する韻律的特徴が存在することは自明である。また多くの知覚実験は韻律による円滑な(人間による) 音声情報処理過程の存在を示している。にも拘わらず韻律を排除して技術構築されてきた理由は,韻律の多様性に対処できる技術が未熟であったことに因る。本研究では語彙レベルの韻律に焦点を当て, 申請者が構築した韻律的情報の高精度予測技術を大語彙連続音声認識に適用し,その高精度化を狙う。本年度は，1)ベースラインとなるDeep Neural Networkによる音声認識の高精度化，2)任意のテキストを対象としたアクセント句境界位置，アクセント核位置推定の高精度化，を検討した。また，読み上げ音声を対象としたアクセント核位置推定技術は，自然音声ではその精度が予想以上に下落することも知見として得られた。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由ベースラインの音声認識の高精度化と，最終的に検討する韻律的特徴に基づくリランキングの要素技術となる，テキストを対象としたアクセント情報の抽出については十分検討が行なえた。その一方で，音声からのアクセント核位置推定については，対象を読み上げ音声から自然音声に変更すると，予想以上にその精度が下落することが判明した。この点に関して，次年度に，新たな技術開発が必要となった。
今後の研究の推進方策	初年度に構築した技術と，音声からのアクセント核位置推定技術を組み合わせることで，音声認識精度の向上を狙う。
次年度の研究費の使用計画	本研究は，音声からのアクセント核位置推定を実装する必要があり，本年度で（最終的な目的を音声認識を目的とした）推定技術を完成させる予定であった。しかし，対象とする音声を「読み上げ」音声から，独話音声（例えば講演音声など）にすると，基本周波数の抽出誤りなどが増え，これまで検討してきた「読み上げ」音声に対応した技術では十分に対応できないことが明らかとなった。この部分の技術開発を次年度でも行なうことを考え，予算の一部を繰り越した。読み上げ音声から，自然発話に以降した場合の技術開発とその成果発表を目的として使用する予定である。

研究成果
(4件)

すべて 2014 2013

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件)

[雑誌論文] Discriminative piecewise linear transformation based on deep learning for noise robust automatic speech recognition2013
- 著者名/発表者名
  Y. Kashiwagi, D. Saito, N. Minematsu, K. Hirose
- 雑誌名
  
  Proc. ASRU
  
  巻: 1 ページ: 350-355
- 査読あり
[雑誌論文] 条件付き確率場を用いた日本語東京方言のアクセント結合自動推定2013
- 著者名/発表者名
  鈴木雅之，黒岩龍，印南佳祐，小林俊平，清水信哉，峯松信明，広瀬啓吉
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: J96-D ページ: 644, 654
- 査読あり
[学会発表] CRFによる日本語東京方言アクセント変化推定の改善2014
- 著者名/発表者名
  橋本浩弥，峯松信明，広瀬啓吉
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  東京，日本大学
- 年月日
  20140310-20140312
[学会発表] Deep Learningに基づくクリーン音声状態識別による雑音環境下音声認識2013
- 著者名/発表者名
  柏木陽佑，齋藤大輔，峯松信明，広瀬啓吉
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  愛知，豊橋技術科学大学
- 年月日
  20130925-20130927

2013 年度 実施状況報告書

語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化

研究代表者

峯松 信明 東京大学, 工学(系)研究科(研究院), 教授 (90273333)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Discriminative piecewise linear transformation based on deep learning for noise robust automatic speech recognition2013

著者名/発表者名

雑誌名

[雑誌論文] 条件付き確率場を用いた日本語東京方言のアクセント結合自動推定2013

著者名/発表者名

雑誌名

[学会発表] CRFによる日本語東京方言アクセント変化推定の改善2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Deep Learningに基づくクリーン音声状態識別による雑音環境下音声認識2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実施状況報告書

峯松信明東京大学, 工学(系)研究科(研究院), 教授 (90273333)