• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

話し言葉音声コミュニケーションの構造の抽出と視覚化

Research Project

Project/Area Number 19300061
Research InstitutionKyoto University

Principal Investigator

河原 達也  Kyoto University, 学術情報メディアセンター, 教授 (00234104)

Co-Investigator(Kenkyū-buntansha) 秋田 祐哉  京都大学, 学術情報メディアセンター, 助教 (90402742)
森 信介  京都大学, 学術情報メディアセンター, 准教授 (90456773)
Keywords話し言葉 / 音声認識 / 言語解析 / メタデータ付与 / メディア検索
Research Abstract

講演・講義や会議・ミーティングなどの大規模な音声アーカイブの効果的な利活用を指向して,このような長時間の話し言葉音声を自動書き起こし(音声認識)するとともに,多層の言語的・談話的構造を抽出し,字幕化を含めて効果的に提示する方法について研究を行った.
話し言葉音声の書き起こしには,認識誤りのみならず,言いよどみや口語的表現など,会議録にふさわしくない現象が多く含まれている.これらの現象を整形し,自然な会議録を作成するために,音声の書き起こし(または音声認識結果)と会議録を異なる言語とみなし,統計的機械翻訳を用いて"翻訳"する方法について研究した.具体的には,翻訳モデルにおいて先行単語の文脈情報を反映できるように拡張し,またフィラー単語などの素性を追加できる対数線形モデルを導入した.このモデルを有限状態トランスデューサー(WFST)に実装した.国会の会議録と学会の講演録をターゲットして学習・評価したどころ,従来手法を大きく上回る性能を実現した.
また,ポッドキャストやポスター会話といった音声会話コンテンツを対象として,会話音声中の聞き手のリアクションに基づいて,視聴者にとって有益な箇所を抽出する手法を提案した.笑い声やあいづちを生起させる箇所(ホットスポット)は第三者である視聴者にとっても有益な情報を含んでいると考えられる.そこで,笑い声とあいづちの2つの音響イベントを頑健に検出する方法を研究した.被験者実験によって各ホットスポットの妥当性を評価し,これらの大半に対して実際に被験者が興味・関心を持つことを確認した.

  • Research Products

    (5 results)

All 2010 2009

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) Patent(Industrial Property Rights) (1 results)

  • [Journal Article] Online unsupervised classification with model comparison in the Variational Bayes framework for voice activity detection2010

    • Author(s)
      D.Cournapeau, S.Watanabe, A.Nakamura, T.Kawahara
    • Journal Title

      IEEE J.Selected Topics in Signal Processing (掲載決定)

    • Peer Reviewed
  • [Journal Article] Statistical transformation of language and pronunciation models for spontaneous speech recognition2010

    • Author(s)
      Y.Akita, T.Kawahara
    • Journal Title

      IEEE Trans.Audio, Speech & Language Processing Vol. 18(掲載決定)

    • Peer Reviewed
  • [Journal Article] Speech activity detection for multi-party conversation analyses based on likelihood ratio test on spatial magnitude estimation2010

    • Author(s)
      K.Ishizuka, S.Araki, T.Kawahara
    • Journal Title

      IEEE Trans.Audio, Speech & Language Processing Vol. 18(掲載決定)

    • Peer Reviewed
  • [Presentation] Transcription system using automatic speech recognition for the Japanese parliament (Diet)2009

    • Author(s)
      T.Kawahara
    • Organizer
      INTERSTENO
    • Place of Presentation
      中国・北京(招待講演)
    • Year and Date
      2009-08-19
  • [Patent(Industrial Property Rights)] 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム2009

    • Inventor(s)
      三村正人, 河原達也
    • Industrial Property Rights Holder
      京都大学
    • Industrial Property Number
      特許・特願2009-094212
    • Filing Date
      2009-04-08

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi