• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 研究成果報告書概要

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

研究課題

研究課題/領域番号 16200011
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
研究分野 知覚情報処理・知能ロボティクス
研究機関京都大学

研究代表者

河原 達也  京都大学, 学術情報メディアセンター, 教授 (00234104)

研究分担者 美濃 導彦  京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕  東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉  京都大学, 学術情報メディアセンター, 助手 (90402742)
研究期間 (年度) 2004 – 2006
キーワード音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論
研究概要

学会講演や大学の講義、放送番組や議会の討論などの音声アーカイブを対象として、自動音声認識及び書き起こしの自動整形に関する研究を行った。
このような自然な話し言葉音声では、発音の変動が大きく、口語的な表現が多用されるため、これらの精緻なモデル化と統計的な学習が必要である。また、語彙や話題も多様であるため、個々の講演・講義・討論に対して適応を行う必要がある。そのため、以下のようなテーマに取り組んだ。
・『日本語話し言葉コーパス』を用いた汎用的な発音変動モデルの統計的学習
・統計的機械翻訳の枠組みに基づく言語モデルの話し言葉スタイルへの変換
・話題と話者に関するPLSAに基づく言語モデルの適応
・講義音声認識のためのスライド情報を利用した言語モデルの適応
・会議音声の話題分割による単語辞書と言語モデルの適応
また、話し言葉の書き起こし(音声認識結果)は、そのままではアーカイブとして保存するには適切でなく、言い淀みの整形、口語的表現の修正、文などのセグメンテーションを行う必要がある。これらのテーマにも取り組んだ。
・話し言葉の係り受け解析と文境界推定の相互作用による高精度化
・係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング
・引用節・挿入節の自動認定及び係り受け解析と引用符の自動付与
・自己修復部の検出及び修正による文編集
さらに、重要文を抽出したり、使用したスライドと対応付けることにより、有用なインデックスを生成できると考えて、以下のテーマにも取り組んだ。
・講演の重要文抽出によるインデキシング
・スライドと発話の対応付けによる講義のインデキシング

  • 研究成果

    (14件)

すべて 2006 2005 2004

すべて 雑誌論文 (12件) 図書 (1件) 産業財産権 (1件)

  • [雑誌論文] Speaker model selection based on the Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.13, No.4

      ページ: 583-592

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara
    • 雑誌名

      IEICE Trans. Vol. E88-D, No.3

      ページ: 439-445

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] 話し言葉音声認識のための汎用的な統計的発音変動モデル.2005

    • 著者名/発表者名
      秋田祐哉, 河原達也
    • 雑誌名

      電子情報通信学会論文誌 Vol.J88-DII, No.9

      ページ: 1780-1789

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] 日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化.2005

    • 著者名/発表者名
      下岡和也, 内元清貴, 河原達也, 井佐原均
    • 雑誌名

      自然言語処理 Vol.12, No.3

      ページ: 3-17

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] Speaker model selection based on the Bayesian information criterion applied to unsupervised speaker indexing.2005

    • 著者名/発表者名
      M.Nishida, T.Kawahara.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.13, No.4

      ページ: 583-592

    • 説明
      「研究成果報告書概要(欧文)」より
  • [雑誌論文] Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara.
    • 雑誌名

      IEICE Trans. Vol.E88-D, No.3

      ページ: 439-445

    • 説明
      「研究成果報告書概要(欧文)」より
  • [雑誌論文] Generalized Statistical Modeling of Pronunciation Variations for Spontaneous Speech Recognition.2005

    • 著者名/発表者名
      Y.Akita, T.Kawahara.
    • 雑誌名

      IEICE Trans. Information and Systems. Vol.J88-DII, No.9

      ページ: 1780-1789

    • 説明
      「研究成果報告書概要(欧文)」より
  • [雑誌論文] Interaction between Dependency Structure Analysis and Sentence Boundary Detection in Spontaneous Japanese.2005

    • 著者名/発表者名
      K.Shitaoka, K.Uchimoto, T.Kawahara, H.Isahara.
    • 雑誌名

      Journal of Natural Language Processing. Vol.12, No.3

      ページ: 3-17

    • 説明
      「研究成果報告書概要(欧文)」より
  • [雑誌論文] Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers.2004

    • 著者名/発表者名
      T.Kawahara, M.Hasegawa, K.Shitaoka, T.Kitade, H.Nanjo
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 409-419

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] Language model and speaking rate adaptation for spontaneous presentation speech recognition.2004

    • 著者名/発表者名
      H.Nanjo, T.Kawahara
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 391-400

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers.2004

    • 著者名/発表者名
      T.Kawahara, M.Hasegawa, K.Shitaoka, T.Kitade, H.Nanjo.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 409-419

    • 説明
      「研究成果報告書概要(欧文)」より
  • [雑誌論文] Language model and speaking rate adaptation for spontaneous presentation speech recognition.2004

    • 著者名/発表者名
      H.Nanjo, T.Kawahara.
    • 雑誌名

      IEEE Trans. Speech & Audio Process. Vol.12, No.4

      ページ: 391-400

    • 説明
      「研究成果報告書概要(欧文)」より
  • [図書] 音声対話システム2006

    • 著者名/発表者名
      河原達也, 荒木雅弘
    • 総ページ数
      208
    • 出版者
      オーム社
    • 説明
      「研究成果報告書概要(和文)」より
  • [産業財産権] 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体2005

    • 発明者名
      河原達也, 木田祐介
    • 権利者名
      京都大学
    • 産業財産権番号
      特願2005-197804
    • 出願年月日
      2005-07-06
    • 説明
      「研究成果報告書概要(和文)」より

URL: 

公開日: 2008-05-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi