2013 Fiscal Year Research-status Report
語彙レベル韻律情報の高精度予測に基づく大語彙連続音声認識の高精度化
Project/Area Number |
25540064
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | The University of Tokyo |
Principal Investigator |
峯松 信明 東京大学, 工学(系)研究科(研究院), 教授 (90273333)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | 音声認識 / 韻律的特徴 / 仮説探索 / リランキング / アクセント核 |
Research Abstract |
音声を文字化(音韻列化)する音声認識技術において「音韻は韻律的特徴と独立である」との理由から,韻律的特徴を排除して得られる音韻的特徴(スペクトル包絡)を特徴量として用いることが常 套手段となっている。しかし,音声を単語列・句列・文列と考えれば,時間的に音韻を超えて存在す る韻律的特徴が存在することは自明である。また多くの知覚実験は韻律による円滑な(人間による) 音声情報処理過程の存在を示している。にも拘わらず韻律を排除して技術構築されてきた理由は,韻律の多様性に対処できる技術が未熟であったことに因る。本研究では語彙レベルの韻律に焦点を当て, 申請者が構築した韻律的情報の高精度予測技術を大語彙連続音声認識に適用し,その高精度化を狙う。本年度は,1)ベースラインとなるDeep Neural Networkによる音声認識の高精度化,2)任意のテキストを対象としたアクセント句境界位置,アクセント核位置推定の高精度化,を検討した。また,読み上げ音声を対象としたアクセント核位置推定技術は,自然音声ではその精度が予想以上に下落することも知見として得られた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
ベースラインの音声認識の高精度化と,最終的に検討する韻律的特徴に基づくリランキングの要素技術となる,テキストを対象としたアクセント情報の抽出については十分検討が行なえた。その一方で,音声からのアクセント核位置推定については,対象を読み上げ音声から自然音声に変更すると,予想以上にその精度が下落することが判明した。この点に関して,次年度に,新たな技術開発が必要となった。
|
Strategy for Future Research Activity |
初年度に構築した技術と,音声からのアクセント核位置推定技術を組み合わせることで,音声認識精度の向上を狙う。
|
Expenditure Plans for the Next FY Research Funding |
本研究は,音声からのアクセント核位置推定を実装する必要があり,本年度で(最終的な目的を音声認識を目的とした)推定技術を完成させる予定であった。しかし,対象とする音声を「読み上げ」音声から,独話音声(例えば講演音声など)にすると,基本周波数の抽出誤りなどが増え,これまで検討してきた「読み上げ」音声に対応した技術では十分に対応できないことが明らかとなった。この部分の技術開発を次年度でも行なうことを考え,予算の一部を繰り越した。 読み上げ音声から,自然発話に以降した場合の技術開発とその成果発表を目的として使用する予定である。
|