研究概要 |
講演・講義や会議・ミーティングなどの大規模な音声アーカイブの効果的な利活用を指向して,このような長時間の話し言葉音声を自動書き起こし(音声認識)するとともに,多層の言語的・談話的構造を抽出し,字幕化を含めて効果的に提示する方法について研究を行った. 大学などの講義で使用されるスライドの情報を用いて,言語モデルを動的に適応することにより,音声認識の高精度化を実現する方法を研究した.まず,当該講義のスライド全体のテキストを用いて,PLSA (Probabilistic LatentSemantic Analysis)によりN-gramモデルの話題への適応を行う.次に,発話に対応する個々のスライドの情報を用いて,キャッシュモデルによりスライドに現れる単語の確率を強化し,認識結果のリスコアリングを行う.本学で行われた技術講習会と正規の講義を対象とした音声認識において評価を行った結果,PLSAによる大域的な適応とキャッシュモデルによる局所的な適応を組み合わせることにより,認識精度の有意な改善が得られた.特に,キーワードの検出で大きな改善が得られ,大学の講義でも80%に近い精度(F値)を実現した. 講演などの話し言葉音声における節・文境界推定のために,局所的な係り受け情報を用いた段階的チャンキング手法を研究した.本研究では隣接する文節間の局所的な係り受けに着目し,サポートベクタマシン(SVM)に基づく段階的テキストチャンキングにおいて,この局所的係り受けを用いた節・文境界の候補の絞り込みを導入した.『日本語話し言葉コーパス』(CSJ)の講演音声における評価において,局所的な係り受けの情報が音声認識結果に対しても頑健に機能し,精度の改善が得られることが示された.
|