• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

研究課題

研究課題/領域番号 16200011
研究機関京都大学

研究代表者

河原 達也  京都大学, 学術情報メディアセンター, 教授 (00234104)

研究分担者 美濃 導彦  京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕  東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉  京都大学, 学術情報メディアセンター, 助手 (90402742)
キーワード音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論
研究概要

講義や討論を主な対象として、音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した。
まず、大学の講義に関して、スライドの情報を用いて発話との対応付けを行い、インデックスを生成する方法について検討した。スライドの提示順序や切り替えのタイミングの情報が利用可能な場合と、スライドの構成順序の情報のみを利用した場合の二通りを想定して、対応付けの問題の定式化を行った。スライドの提示順と構成順が一致しない場合や、キーワードが少なく対応付けが困難なスライドに対処するために、複数のスライドから構成されるトピックを定義し、スライドまたはトピックを状態とするマルコフモデルを構成した。また、いずれのスライド/トピックにも対応付けられない発話の検出も試みた。
次に、国会の討論を対象として、公式の会議録と忠実な発話の書き起こし(及び音声)を対応付けた大規模なコーパスの作成を行った。これに基づいて、話し言葉と書き言葉の確率的な変換モデルを学習し、効率的に音声認識用の統計的言語モデルを構築する方法を考案した。また、国会討論の音声認識システムのプロトタイプを作成し、第一候補の単語認識精度で80%、平均的に第二候補まで抽出することにより90%の単語正解率を実現できることを示した。この結果に基づいて、書き起こしの修正・編集を効率的に行うためのインタフェースについても検討を行った。
このような話し言葉音声の自動認識と高次アーカイブ化を実現するための基盤技術として、話者インデキシング、発音変形のモデル化、言語モデルの適応法、及び文境界の自動検出などに関する研究も進めた。

  • 研究成果

    (8件)

すべて 2006 2005

すべて 雑誌論文 (6件) 図書 (1件) 産業財産権 (1件)

  • [雑誌論文] Verification of speech recognition results incorporating in-domain confidence and discourse coherence measures.2006

    • 著者名/発表者名
      I.R.Lane, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol.E89-D・No.3

      ページ: 931-938

  • [雑誌論文] Trigger-based language model adaptation for automatic transcription of panel discussions.2006

    • 著者名/発表者名
      C.Troncoso, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol.E89-D・No.3

      ページ: 1024-1031

  • [雑誌論文] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara
    • 雑誌名

      IEEE Trans.Speech & Audio Process Vol.13・No.4

      ページ: 583-592

  • [雑誌論文] User modeling in spoken dialogue systems to generate flexible guidance.2005

    • 著者名/発表者名
      K.Komatani, S.Ueno, T.Kawahara, H.G.Okuno
    • 雑誌名

      User Modeling and User-Adapted Interaction Vol.15・No.1

      ページ: 169-183

  • [雑誌論文] 話し言葉音声認識のための汎用的な統計的発音変動モデル2005

    • 著者名/発表者名
      秋田祐哉, 河原達也
    • 雑誌名

      電子情報通信学会論文誌 Vol.J88-DII・No.9

      ページ: 1780-1789

  • [雑誌論文] 日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化2005

    • 著者名/発表者名
      下岡和也, 内元清貴, 河原達也, 井佐原均
    • 雑誌名

      自然言語処理 Vol.12・No.3

      ページ: 3-17

  • [図書] Spoken Language Systems2005

    • 著者名/発表者名
      Seiichi Nakagawa, Michio Okada, Tatsuya Kawahara, editors
    • 総ページ数
      347
    • 出版者
      Ohmsha/IOS Press
  • [産業財産権] 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体2005

    • 発明者名
      河原達也, 木田祐介
    • 権利者名
      京都大学
    • 産業財産権番号
      特願2005-197804
    • 出願年月日
      2005-07-06
    • 説明
      「研究成果報告書概要(和文)」より

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi