• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

Research Project

Project/Area Number 16200011
Research InstitutionKyoto University

Principal Investigator

河原 達也  京都大学, 学術情報メディアセンター, 教授 (00234104)

Co-Investigator(Kenkyū-buntansha) 美濃 導彦  京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕  東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉  京都大学, 学術情報メディアセンター, 助手 (90402742)
Keywords音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論
Research Abstract

講義や討論を主な対象として、音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した。
まず、大学の講義に関して、スライドの情報を用いて発話との対応付けを行い、インデックスを生成する方法について検討した。スライドの提示順序や切り替えのタイミングの情報が利用可能な場合と、スライドの構成順序の情報のみを利用した場合の二通りを想定して、対応付けの問題の定式化を行った。スライドの提示順と構成順が一致しない場合や、キーワードが少なく対応付けが困難なスライドに対処するために、複数のスライドから構成されるトピックを定義し、スライドまたはトピックを状態とするマルコフモデルを構成した。また、いずれのスライド/トピックにも対応付けられない発話の検出も試みた。
次に、国会の討論を対象として、公式の会議録と忠実な発話の書き起こし(及び音声)を対応付けた大規模なコーパスの作成を行った。これに基づいて、話し言葉と書き言葉の確率的な変換モデルを学習し、効率的に音声認識用の統計的言語モデルを構築する方法を考案した。また、国会討論の音声認識システムのプロトタイプを作成し、第一候補の単語認識精度で80%、平均的に第二候補まで抽出することにより90%の単語正解率を実現できることを示した。この結果に基づいて、書き起こしの修正・編集を効率的に行うためのインタフェースについても検討を行った。
このような話し言葉音声の自動認識と高次アーカイブ化を実現するための基盤技術として、話者インデキシング、発音変形のモデル化、言語モデルの適応法、及び文境界の自動検出などに関する研究も進めた。

  • Research Products

    (8 results)

All 2006 2005

All Journal Article (6 results) Book (1 results) Patent(Industrial Property Rights) (1 results)

  • [Journal Article] Verification of speech recognition results incorporating in-domain confidence and discourse coherence measures.2006

    • Author(s)
      I.R.Lane, T.Kawahara
    • Journal Title

      IEICE Trans. Vol.E89-D・No.3

      Pages: 931-938

  • [Journal Article] Trigger-based language model adaptation for automatic transcription of panel discussions.2006

    • Author(s)
      C.Troncoso, T.Kawahara
    • Journal Title

      IEICE Trans. Vol.E89-D・No.3

      Pages: 1024-1031

  • [Journal Article] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing.2005

    • Author(s)
      M.Nishida, T.Kawahara
    • Journal Title

      IEEE Trans.Speech & Audio Process Vol.13・No.4

      Pages: 583-592

  • [Journal Article] User modeling in spoken dialogue systems to generate flexible guidance.2005

    • Author(s)
      K.Komatani, S.Ueno, T.Kawahara, H.G.Okuno
    • Journal Title

      User Modeling and User-Adapted Interaction Vol.15・No.1

      Pages: 169-183

  • [Journal Article] 話し言葉音声認識のための汎用的な統計的発音変動モデル2005

    • Author(s)
      秋田祐哉, 河原達也
    • Journal Title

      電子情報通信学会論文誌 Vol.J88-DII・No.9

      Pages: 1780-1789

  • [Journal Article] 日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化2005

    • Author(s)
      下岡和也, 内元清貴, 河原達也, 井佐原均
    • Journal Title

      自然言語処理 Vol.12・No.3

      Pages: 3-17

  • [Book] Spoken Language Systems2005

    • Author(s)
      Seiichi Nakagawa, Michio Okada, Tatsuya Kawahara, editors
    • Total Pages
      347
    • Publisher
      Ohmsha/IOS Press
  • [Patent(Industrial Property Rights)] 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体2005

    • Inventor(s)
      河原達也, 木田祐介
    • Industrial Property Rights Holder
      京都大学
    • Industrial Property Number
      特願2005-197804
    • Filing Date
      2005-07-06
    • Description
      「研究成果報告書概要(和文)」より

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi