• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

研究課題

研究課題/領域番号 16200011
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
研究分野 知覚情報処理・知能ロボティクス
研究機関京都大学

研究代表者

河原 達也  京都大学, 学術情報メディアセンター, 教授 (00234104)

研究分担者 美濃 導彦  京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕  東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉  京都大学, 学術情報メディアセンター, 助手 (90402742)
研究期間 (年度) 2004 – 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
45,110千円 (直接経費: 34,700千円、間接経費: 10,410千円)
2006年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2005年度: 14,170千円 (直接経費: 10,900千円、間接経費: 3,270千円)
2004年度: 18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円)
キーワード音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論
研究概要

学会講演や大学の講義、放送番組や議会の討論などの音声アーカイブを対象として、自動音声認識及び書き起こしの自動整形に関する研究を行った。
このような自然な話し言葉音声では、発音の変動が大きく、口語的な表現が多用されるため、これらの精緻なモデル化と統計的な学習が必要である。また、語彙や話題も多様であるため、個々の講演・講義・討論に対して適応を行う必要がある。そのため、以下のようなテーマに取り組んだ。
・『日本語話し言葉コーパス』を用いた汎用的な発音変動モデルの統計的学習
・統計的機械翻訳の枠組みに基づく言語モデルの話し言葉スタイルへの変換
・話題と話者に関するPLSAに基づく言語モデルの適応
・講義音声認識のためのスライド情報を利用した言語モデルの適応
・会議音声の話題分割による単語辞書と言語モデルの適応
また、話し言葉の書き起こし(音声認識結果)は、そのままではアーカイブとして保存するには適切でなく、言い淀みの整形、口語的表現の修正、文などのセグメンテーションを行う必要がある。これらのテーマにも取り組んだ。
・話し言葉の係り受け解析と文境界推定の相互作用による高精度化
・係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング
・引用節・挿入節の自動認定及び係り受け解析と引用符の自動付与
・自己修復部の検出及び修正による文編集
さらに、重要文を抽出したり、使用したスライドと対応付けることにより、有用なインデックスを生成できると考えて、以下のテーマにも取り組んだ。
・講演の重要文抽出によるインデキシング
・スライドと発話の対応付けによる講義のインデキシング

報告書

(4件)
  • 2006 実績報告書   研究成果報告書概要
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (33件)

すべて 2007 2006 2005 2004

すべて 雑誌論文 (30件) 図書 (2件) 産業財産権 (1件)

  • [雑誌論文] Out-of-domain utterance detection using classification confidences of multiple topics2007

    • 著者名/発表者名
      I.R.Lane, T.Kawahara, T.Matsui, S.Nakamura
    • 雑誌名

      IEEE Trans. Audio, Speech & Language Processing Vol. 15, No. 1

      ページ: 150-161

    • NAID

      120002511372

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Intelligent transcription system based on spontaneous speech processing2007

    • 著者名/発表者名
      T.Kawahara
    • 雑誌名

      Proc. Int'l Conference on Informatics Research for Development of Knowledge Society Infrastructure

      ページ: 19-26

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 複数特徴の重み付き統合による雑音に頑健な発話区間検出2006

    • 著者名/発表者名
      木田祐介, 河原達也
    • 雑誌名

      電子情報通信学会論文誌 Vol. J89-DII, No. 8

      ページ: 1820-1828

    • NAID

      110002952512

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Dialogue strategy to clarify user's queries for document retrieval system with speech interface2006

    • 著者名/発表者名
      T.Misu, T.Kawahara
    • 雑誌名

      Speech Communication Vol. 48, No. 9

      ページ: 1137-1150

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Efficient estimation of language model statistics of spontaneous speech via statistical transformation model2006

    • 著者名/発表者名
      Y.Akita, T.Kawahara
    • 雑誌名

      Proc. IEEE-ICASSP 1

      ページ: 1049-1052

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Detection of quotations and inserted clauses and its application to dependency structure analysis in2006

    • 著者名/発表者名
      R.Hamabe, K.Uchimoto, T.Kawahara, H.Isahara
    • 雑誌名

      Proc. COLING-ACL

      ページ: 324-330

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Verification of speech recognition results incorporating in-domain confidence and discourse coherence measures.2006

    • 著者名/発表者名
      I.R.Lane, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol.E89-D・No.3

      ページ: 931-938

    • NAID

      110004719366

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Trigger-based language model adaptation for automatic transcription of panel discussions.2006

    • 著者名/発表者名
      C.Troncoso, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol.E89-D・No.3

      ページ: 1024-1031

    • NAID

      110004719377

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Speaker model selection based on the Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.13, No.4

      ページ: 583-592

    • NAID

      120002511373

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol. E88-D, No.3

      ページ: 439-445

    • NAID

      110003214204

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] 話し言葉音声認識のための汎用的な統計的発音変動モデル.2005

    • 著者名/発表者名
      秋田祐哉, 河原達也
    • 雑誌名

      電子情報通信学会論文誌 Vol.J88-DII, No.9

      ページ: 1780-1789

    • NAID

      110003224132

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] 日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化.2005

    • 著者名/発表者名
      下岡和也, 内元清貴, 河原達也, 井佐原均
    • 雑誌名

      自然言語処理 Vol.12, No.3

      ページ: 3-17

    • NAID

      10016629478

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Speaker model selection based on the Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.13, No.4

      ページ: 583-592

    • NAID

      120002511373

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara.
    • 雑誌名

      IEICE Trans. Vol.E88-D, No.3

      ページ: 439-445

    • NAID

      110003214204

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Generalized Statistical Modeling of Pronunciation Variations for Spontaneous Speech Recognition.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara.
    • 雑誌名

      IEICE Trans. Information and Systems. Vol.J88-DII, No.9

      ページ: 1780-1789

    • NAID

      110003224132

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Interaction between Dependency Structure Analysis and Sentence Boundary Detection in Spontaneous Japanese.2005

    • 著者名/発表者名
      K.Shitaoka, K.Uchimoto, T.Kawahara, H.Isahara.
    • 雑誌名

      Journal of Natural Language Processing. Vol.12, No.3

      ページ: 3-17

    • NAID

      10016629478

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara
    • 雑誌名

      IEEE Trans.Speech & Audio Process Vol.13・No.4

      ページ: 583-592

    • NAID

      120002511373

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] User modeling in spoken dialogue systems to generate flexible guidance.2005

    • 著者名/発表者名
      K.Komatani, S.Ueno, T.Kawahara, H.G.Okuno
    • 雑誌名

      User Modeling and User-Adapted Interaction Vol.15・No.1

      ページ: 169-183

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] 話し言葉音声認識のための汎用的な統計的発音変動モデル2005

    • 著者名/発表者名
      秋田祐哉, 河原達也
    • 雑誌名

      電子情報通信学会論文誌 Vol.J88-DII・No.9

      ページ: 1780-1789

    • NAID

      110003224132

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] 日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化2005

    • 著者名/発表者名
      下岡和也, 内元清貴, 河原達也, 井佐原均
    • 雑誌名

      自然言語処理 Vol.12・No.3

      ページ: 3-17

    • NAID

      10016629478

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Processing 13(採録決定)

    • NAID

      120002511373

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara
    • 雑誌名

      IEICE Trans. E88-D, 3

      ページ: 439-445

    • NAID

      110003214204

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 連続音声認識ソフトウエアJulius2005

    • 著者名/発表者名
      河原達也, 李晃伸
    • 雑誌名

      人工知能学会誌 20, 1

      ページ: 41-49

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers.2004

    • 著者名/発表者名
      T.Kawahara, M.Hasegawa, K.Shitaoka, T.Kitade, H.Nanjo
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 409-419

    • NAID

      120002511374

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Language model and speaking rate adaptation for spontaneous presentation speech recognition.2004

    • 著者名/発表者名
      H.Nanjo, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 391-400

    • NAID

      110003171148

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers.2004

    • 著者名/発表者名
      T.Kawahara, M.Hasegawa, K.Shitaoka, T.Kitade, H.Nanjo.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 409-419

    • NAID

      120002511374

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Language model and speaking rate adaptation for spontaneous presentation speech recognition.2004

    • 著者名/発表者名
      H.Nanjo, T.Kawahara.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 391-400

    • NAID

      110003171148

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2006 研究成果報告書概要
  • [雑誌論文] Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers2004

    • 著者名/発表者名
      T.Kawahara, M.Hasegawa, K.hitaoka, T.Kitade, H.Nanjo
    • 雑誌名

      IEEE Trans. Speech & Audio Processing 12, 4

      ページ: 409-419

    • NAID

      120002511374

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Language model and speaking rate adaptation for spontaneous presentation speech recognition2004

    • 著者名/発表者名
      H.Nanjo, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Processing 12, 4

      ページ: 391-400

    • NAID

      110003171148

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 話し言葉による音声対話システム2004

    • 著者名/発表者名
      河原達也
    • 雑誌名

      情報処理 45, 10

      ページ: 1027-1031

    • 関連する報告書
      2004 実績報告書
  • [図書] 音声対話システム2006

    • 著者名/発表者名
      河原達也, 荒木雅弘
    • 総ページ数
      208
    • 出版者
      オーム社
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 実績報告書 2006 研究成果報告書概要
  • [図書] Spoken Language Systems2005

    • 著者名/発表者名
      Seiichi Nakagawa, Michio Okada, Tatsuya Kawahara, editors
    • 総ページ数
      347
    • 出版者
      Ohmsha/IOS Press
    • 関連する報告書
      2005 実績報告書
  • [産業財産権] 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体2005

    • 発明者名
      河原達也, 木田祐介
    • 権利者名
      京都大学
    • 産業財産権番号
      2005-197804
    • 出願年月日
      2005-07-06
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2006 研究成果報告書概要 2005 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi