2009 年度研究成果報告書

話し言葉音声コミュニケーションの構造の抽出と視覚化

研究課題

研究課題/領域番号	19300061
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	京都大学
研究代表者	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
研究分担者	中村裕一京都大学, 学術情報メディアセンター, 教授 (40227947) 秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742) 内元清貴情報通信研究機構, 知識創成コミュニケーション研究センター, 主任研究員 (60358885) 森信介京都大学, 学術情報メディアセンター, 准教授 (90456773)
研究期間 (年度)	2007 – 2009
キーワード	音声言語処理 / 話し言葉 / 音声認識 / 言語解析 / メタデータ付与 / メディア検索
研究概要	講演・講義や会議・ミーティングなどの大規模な音声アーカイブの効果的な利活用を指向して、このような長時間の話し言葉音声を自動書き起こし(音声認識)するとともに、多層の言語的・談話的構造を抽出し、字幕化を含めて効果的に提示する方法について研究を行った。学会講演、大学講義、及び国会審議の大規模なコーパスを用いて、音声認識・筆記録作成支援を行うシステムを構築した。

研究成果
(47件)

すべて 2010 2009 2008 2007

すべて雑誌論文 (14件) 学会発表 (31件) 図書 (1件) 産業財産権 (1件)

[雑誌論文] Online unsupervised classification with model comparison in the Variational Bayes framework for voice activity detection.2010
- 著者名/発表者名
  D. Cournapeau, S. Watanabe, A. Nakamura, T. Kawahara
- 雑誌名
  
  IEEE J. Selected Topics in Signal Processing (accepted for publication)
[雑誌論文] Gaussian mixture optimization based on efficient cross-validation.2010
- 著者名/発表者名
  T. Shinozaki, S. Furui, T. Kawahara
- 雑誌名
  
  IEEE J. Selected Topics in Signal Processing (accepted for publication)
[雑誌論文] Statistical transformation of language and pronunciation models for spontaneous speech recognition.2010
- 著者名/発表者名
  Y. Akita, T. Kawahara
- 雑誌名
  
  IEEE Trans. Audio, Speech & Language Process. (accepted for publication)
[雑誌論文] Speech activity detection for multi-party conversation analyses based on likelihood ratio test on spatial magnitude estimation.2010
- 著者名/発表者名
  K. Ishizuka, S. Araki, T. Kawahara
- 雑誌名
  
  IEEE Trans. Audio, Speech & Language Process. Vol.18(accepted for publication)
[雑誌論文] Bayes risk-based dialogue management for document retrieval system with speech interface.2010
- 著者名/発表者名
  T. Misu, T. Kawahara
- 雑誌名
  
  Speech Communication Vol.52,No.1
  
  ページ: 61-71
[雑誌論文] Effective prediction of errors by non-native speakers using decision tree for speech recognition-based CALL system.2009
- 著者名/発表者名
  H. Wang, T. Kawahara
- 雑誌名
  
  IEICE Trans. Vol.E92-D,No.12
  
  ページ: 2462-2468
[雑誌論文] Computer assisted language learning system based on dynamic question generation and error prediction for automatic speech recognition.2009
- 著者名/発表者名
  H. Wang, C.J. Waple, T. Kawahara
- 雑誌名
  
  Speech Communication Vol.51,No.10
  
  ページ: 995-1005
[雑誌論文] 局所的な係り受けの情報を用いた話し言葉の節・文境界の推定.2009
- 著者名/発表者名
  西光雅弘, 秋田祐哉, 高梨克也, 尾嶋憲治, 河原達也
- 雑誌名
  
  情報処理学会論文誌 Vol.50,No.2
  
  ページ: 544-552
[雑誌論文] スライド情報を用いた言語モデル適応による講義音声認識2009
- 著者名/発表者名
  河原達也, 根本雄介, 勝丸徳浩, 秋田祐哉
- 雑誌名
  
  情報処理学会論文誌 Vol.50,No.2
  
  ページ: 469-476
[雑誌論文] 話し言葉における引用節・挿入節の自動認定および係り受け解析への応用2009
- 著者名/発表者名
  浜辺良二, 内元清貴, 河原達也, 井佐原均
- 雑誌名
  
  自然言語処理 Vol.16,No.1
  
  ページ: 3-23
[雑誌論文] Voice activity detection based on high order statistics and online EM algorithm.2008
- 著者名/発表者名
  D. Cournapeau, T. Kawahara
- 雑誌名
  
  IEICE Trans. Vol.E91-D,No.12
  
  ページ: 2854-2861
[雑誌論文] 音声理解を指向したベイズリスク最小化枠組みに基づく音声認識2008
- 著者名/発表者名
  南條浩輝, 河原達也, 七里崇
- 雑誌名
  
  電子情報通信学会論文誌 Vol.J91-D,No.5
  
  ページ: 1314-1324
[雑誌論文] 質問応答・情報推薦機能を備えた音声による情報案内システム2007
- 著者名/発表者名
  翠輝久, 河原達也, 正司哲朗, 美濃導彦
- 雑誌名
  
  情報処理学会論文誌 Vol.48,No.12
  
  ページ: 3602-3611
[雑誌論文] ドメインとスタイルを考慮したwebテキストの選択による音声対話システム用言語モデルの構築.2007
- 著者名/発表者名
  翠輝久, 河原達也
- 雑誌名
  
  電子情報通信学会論文誌 Vol.J90-D,No.11
  
  ページ: 3024-3032
[学会発表] Improved statistical models for SMT-based speaking style transformation.2010
- 著者名/発表者名
  G. Neubig, Y. Akita, S. Mori, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ダラス
- 年月日
  20100300
[学会発表] Optimizing spectral subtraction and Wiener filtering for robust speech recognition in reverberant and noisy conditions.2010
- 著者名/発表者名
  R. Gomez, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ダラス
- 年月日
  20100300
[学会発表] Using online model comparison in the Variational Bayes framework for online unsupervised voice activity detection.2010
- 著者名/発表者名
  D. Cournapeau, S. Watanabe, A. Nakamura, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ダラス
- 年月日
  20100300
[学会発表] New perspectives on spoken language understanding: Does machine need to fully understand speech?2009
- 著者名/発表者名
  T. Kawahara
- 学会等名
  In Proc. IEEE Workshop on Automatic Speech Recognition and Understanding
- 発表場所
  イタリア・メラノ
- 年月日
  20091200
[学会発表] Tight integration of dereverberation and automatic speech recognition.2009
- 著者名/発表者名
  R. Gomez, T. Kawahara
- 学会等名
  In Proc. APSIPA ASC
- 発表場所
  札幌
- 年月日
  20091000
[学会発表] Recent development of open-source speech recognition engine Julius.2009
- 著者名/発表者名
  A. Lee, T. Kawahara
- 学会等名
  In Proc. APSIPA ASC
- 発表場所
  札幌
- 年月日
  20091000
[学会発表] A WFST-based log-linear framework for speaking-style transformation.2009
- 著者名/発表者名
  G. Neubig, S. Mori, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  英国・ブライトン
- 年月日
  20090900
[学会発表] Optimization of dereverberation parameters based on likelihood of speech recognizer.2009
- 著者名/発表者名
  R. Gomez, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  英国・ブライトン
- 年月日
  20090900
[学会発表] Acoustic event detection for spotting hot spots in podcasts.2009
- 著者名/発表者名
  K. Sumi, T. Kawahara, J. Ogata, M. Goto.
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  英国・ブライトン
- 年月日
  20090900
[学会発表] Automatic transcription system for meetings of the Japanese.2009
- 著者名/発表者名
  Y. Akita, M. Mimura, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  英国・ブライトン
- 年月日
  20090900
[学会発表] Language model transformation applied to lightly supervised training of acoustic model for congress meetings.2009
- 著者名/発表者名
  T. Kawahara, M. Mimura, Y. Akita
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  台北
- 年月日
  20090400
[学会発表] Extracting word-pronunciation pairs from comparable set of text and speech.2008
- 著者名/発表者名
  T. Sasada, S. Mori, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  豪州・ブリスベーン
- 年月日
  20080900
[学会発表] A Japanese CALL system based on dynamic question generation and error prediction for ASR.2008
- 著者名/発表者名
  H. Wang, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  豪州・ブリスベーン
- 年月日
  20080900
[学会発表] Detection of feeling through back-channels in spoken dialogue.2008
- 著者名/発表者名
  T. Kawahara, M. Toyokura, T. Misu, C. Hori
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  豪州・ブリスベーン
- 年月日
  20080900
[学会発表] Multi-modal recording, analysis and indexing of poster sessions.2008
- 著者名/発表者名
  T. Kawahara, H. Setoguchi, K. Takanashi, K. Ishizuka, S. Araki.
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  豪州・ブリスベーン
- 年月日
  20080900
[学会発表] Statistical speech activity detection based on spatial power distribution for analyses of poster presentations.2008
- 著者名/発表者名
  K. Ishizuka, S. Araki, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  豪州・ブリスベーン
- 年月日
  20080900
[学会発表] Bayes risk-based dialogue management for document retrieval system with speech interface.2008
- 著者名/発表者名
  T. Misu, T. Kawahara
- 学会等名
  In Proc. COLING, Vol. Posters & Demo.
- 発表場所
  英国・マンチェスター
- 年月日
  20080800
[学会発表] Effective error prediction using decision tree for ASR grammar network in CALL system.2008
- 著者名/発表者名
  H. Wang, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ラスベガス
- 年月日
  20080300
[学会発表] Automatic lecture transcription by exploiting presentation slide information for language model adaptation.2008
- 著者名/発表者名
  T. Kawahara, Y. Nemoto, Y. Akita
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ラスベガス
- 年月日
  20080300
[学会発表] Using Variational Bayes Free Energy for unsupervised voice activity detection.2008
- 著者名/発表者名
  D. Cournapeau, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ラスベガス
- 年月日
  20080300
[学会発表] GMM and HMM training by aggregated EM algorithm with increased ensemble sizes for robust parameter estimation.2008
- 著者名/発表者名
  T. Shinozaki, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ラスベガス
- 年月日
  20080300
[学会発表] HMM training based on CV-EM and CV Gaussian mixture optimization.2007
- 著者名/発表者名
  T. Shinozaki, T. Kawahara
- 学会等名
  In Proc. IEEE Workshop on Automatic Speech Recognition and Understanding
- 発表場所
  京都
- 年月日
  20071200
[学会発表] Evaluation of real-time voice activity detection based on high order statistics.2007
- 著者名/発表者名
  D. Cournapeau, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  ベルギー・ブリュッセル
- 年月日
  20070900
[学会発表] Bayes risk-based optimization of dialogue management for document retrieval system with speech interface.2007
- 著者名/発表者名
  T. Misu, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  ベルギー・ブリュッセル
- 年月日
  20070900
[学会発表] Evaluating and optimizing Japanese tutor system featuring dynamic question generation and interactive guidance.2007
- 著者名/発表者名
  C. Waple, H. Wang, T. Kawahara Y. Tsubota, M. Dantsuji
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  ベルギー・ブリュッセル
- 年月日
  20070900
[学会発表] Gaussian mixture optimization for HMM based on efficient cross-validation.2007
- 著者名/発表者名
  T. Shinozaki, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  ベルギー・ブリュッセル
- 年月日
  20070900
[学会発表] PLSA-based topic detection in meetings for adaptation of lexicon and language model.2007
- 著者名/発表者名
  Y. Akita, Y. Nemoto, T. Kawahara
- 学会等名
  In Proc. INTERSPEECH
- 発表場所
  ベルギーブリュッセル
- 年月日
  20070900
[学会発表] An interactive framework for document retrieval and presentation with question-answering function in restricted domain.2007
- 著者名/発表者名
  T. Misu, T. Kawahara
- 学会等名
  In Proc. IEA/AIE
- 発表場所
  京都
- 年月日
  20070600
[学会発表] Speech-based interactive information guidance system using question-answering technique.2007
- 著者名/発表者名
  T. Misu, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ホノルル
- 年月日
  20070400
[学会発表] Automatic detection of sentence and clause units using local syntactic dependency.2007
- 著者名/発表者名
  T. Kawahara, M. Saikou, K. Takanashi
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ホノルル
- 年月日
  20070400
[学会発表] Topic-independent speaking-style transformation of language model for spontaneous speech recognition.2007
- 著者名/発表者名
  Y. Akita, T. Kawahara
- 学会等名
  In Proc. IEEE-ICASSP
- 発表場所
  米国・ホノルル
- 年月日
  20070400
[図書]2008
- 著者名/発表者名
  S. Furui, T. Kawahara
- 総ページ数
  627-651
- 出版者
  Springer
[産業財産権] 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム2009
- 発明者名
  三村正人, 河原達也
- 権利者名
  京都大学
- 産業財産権番号
  特許・特願2009-094212
- 出願年月日
  2009-04-08

2009 年度 研究成果報告書

話し言葉音声コミュニケーションの構造の抽出と視覚化

研究代表者

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

研究成果

[雑誌論文] Online unsupervised classification with model comparison in the Variational Bayes framework for voice activity detection.2010

著者名/発表者名

雑誌名

[雑誌論文] Gaussian mixture optimization based on efficient cross-validation.2010

著者名/発表者名

雑誌名

[雑誌論文] Statistical transformation of language and pronunciation models for spontaneous speech recognition.2010

著者名/発表者名

雑誌名

[雑誌論文] Speech activity detection for multi-party conversation analyses based on likelihood ratio test on spatial magnitude estimation.2010

著者名/発表者名

雑誌名

[雑誌論文] Bayes risk-based dialogue management for document retrieval system with speech interface.2010

著者名/発表者名

雑誌名

[雑誌論文] Effective prediction of errors by non-native speakers using decision tree for speech recognition-based CALL system.2009

著者名/発表者名

雑誌名

[雑誌論文] Computer assisted language learning system based on dynamic question generation and error prediction for automatic speech recognition.2009

著者名/発表者名

雑誌名

[雑誌論文] 局所的な係り受けの情報を用いた話し言葉の節・文境界の推定.2009

著者名/発表者名

雑誌名

[雑誌論文] スライド情報を用いた言語モデル適応による講義音声認識2009

著者名/発表者名

雑誌名

[雑誌論文] 話し言葉における引用節・挿入節の自動認定および係り受け解析への応用2009

著者名/発表者名

雑誌名

[雑誌論文] Voice activity detection based on high order statistics and online EM algorithm.2008

著者名/発表者名

雑誌名

[雑誌論文] 音声理解を指向したベイズリスク最小化枠組みに基づく音声認識2008

著者名/発表者名

雑誌名

[雑誌論文] 質問応答・情報推薦機能を備えた音声による情報案内システム2007

著者名/発表者名

雑誌名

[雑誌論文] ドメインとスタイルを考慮したwebテキストの選択による音声対話システム用言語モデルの構築.2007

著者名/発表者名

雑誌名

[学会発表] Improved statistical models for SMT-based speaking style transformation.2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Optimizing spectral subtraction and Wiener filtering for robust speech recognition in reverberant and noisy conditions.2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Using online model comparison in the Variational Bayes framework for online unsupervised voice activity detection.2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] New perspectives on spoken language understanding: Does machine need to fully understand speech?2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Tight integration of dereverberation and automatic speech recognition.2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Recent development of open-source speech recognition engine Julius.2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A WFST-based log-linear framework for speaking-style transformation.2009

著者名/発表者名

学会等名

2009 年度研究成果報告書

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)