2006 年度実績報告書

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

研究課題

研究課題/領域番号	16200011
研究機関	京都大学
研究代表者	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
研究分担者	美濃導彦京都大学, 学術情報メディアセンター, 教授 (70166099) 古井貞煕東京工業大学, 情報理工学研究科, 教授 (90293076) 秋田祐哉京都大学, 学術情報メディアセンター, 助手 (90402742)
キーワード	音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論
研究概要	講義や討論を主な対象として,音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した. まず,講義を対象として,使用されるスライド資料を活用して,対応する音声区間を分割するとともに,その話題に対して音声認識用の言語モデルを適応する方法を研究した.具体的には,当該講義のスライド全体のテキストを用いて,PLSA(Probabilistic Latent Semantic Analysis)によりN-gramモデルのスケーリングを行うとともに,発話に対応する個々のスライドの情報を用いて,キャッシュモデルによりスライドに現れる単語の確率を強化する.この結果,音声認識精度,特にキーワードの検出精度で大きな改善が見られ,大学の講義でも80%に近い精度を実現した. また,スライド資料がない会議音声を話題単位に自動分割する手法を研究した.音声認識結果に対して,PLSAを適用して,話題を表す特徴ベクトルに変換し,その類似度に基づいて話題分割を行う.さらに,話題ごとに類似したテキストを収集して,単語辞書の更新とN-gram言語モデルの適応を行う.これらの手法を,衆議院予算委員会の音声で評価を行った.これらの処理に基づいて,講義や討論に字幕を付与する試みを行った.

研究成果
(7件)

すべて 2007 2006

すべて雑誌論文 (6件) 図書 (1件)

[雑誌論文] Out-of-domain utterance detection using classification confidences of multiple topics2007
- 著者名/発表者名
  I.R.Lane, T.Kawahara, T.Matsui, S.Nakamura
- 雑誌名
  
  IEEE Trans. Audio, Speech ＆ Language Processing Vol. 15, No. 1
  
  ページ: 150-161
[雑誌論文] Intelligent transcription system based on spontaneous speech processing2007
- 著者名/発表者名
  T.Kawahara
- 雑誌名
  
  Proc. Int'l Conference on Informatics Research for Development of Knowledge Society Infrastructure
  
  ページ: 19-26
[雑誌論文] 複数特徴の重み付き統合による雑音に頑健な発話区間検出2006
- 著者名/発表者名
  木田祐介, 河原達也
- 雑誌名
  
  電子情報通信学会論文誌 Vol. J89-DII, No. 8
  
  ページ: 1820-1828
[雑誌論文] Dialogue strategy to clarify user's queries for document retrieval system with speech interface2006
- 著者名/発表者名
  T.Misu, T.Kawahara
- 雑誌名
  
  Speech Communication Vol. 48, No. 9
  
  ページ: 1137-1150
[雑誌論文] Efficient estimation of language model statistics of spontaneous speech via statistical transformation model2006
- 著者名/発表者名
  Y.Akita, T.Kawahara
- 雑誌名
  
  Proc. IEEE-ICASSP 1
  
  ページ: 1049-1052
[雑誌論文] Detection of quotations and inserted clauses and its application to dependency structure analysis in2006
- 著者名/発表者名
  R.Hamabe, K.Uchimoto, T.Kawahara, H.Isahara
- 雑誌名
  
  Proc. COLING-ACL
  
  ページ: 324-330
[図書] 音声対話システム2006
- 著者名/発表者名
  河原達也, 荒木雅弘
- 総ページ数
  208
- 出版者
  オーム社
- 説明
  「研究成果報告書概要(和文)」より

2006 年度 実績報告書

講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解

研究代表者

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

研究成果

[雑誌論文] Out-of-domain utterance detection using classification confidences of multiple topics2007

著者名/発表者名

雑誌名

[雑誌論文] Intelligent transcription system based on spontaneous speech processing2007

著者名/発表者名

雑誌名

[雑誌論文] 複数特徴の重み付き統合による雑音に頑健な発話区間検出2006

著者名/発表者名

雑誌名

[雑誌論文] Dialogue strategy to clarify user's queries for document retrieval system with speech interface2006

著者名/発表者名

雑誌名

[雑誌論文] Efficient estimation of language model statistics of spontaneous speech via statistical transformation model2006

著者名/発表者名

雑誌名

[雑誌論文] Detection of quotations and inserted clauses and its application to dependency structure analysis in2006

著者名/発表者名

雑誌名

[図書] 音声対話システム2006

著者名/発表者名

総ページ数

出版者

説明

2006 年度実績報告書

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)