高精度な話し言葉認識技術の開発

研究課題

研究課題/領域番号	22500144
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	山形大学
研究代表者	小坂哲夫山形大学, 大学院・理工学研究科, 教授 (50359569)
連携研究者	加藤正治山形大学, 大学院・理工学研究科, 助教 (10250953)
研究期間 (年度)	2010 – 2012
研究課題ステータス	完了 (2012年度)
配分額 *注記	3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2012年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2011年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2010年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声認識 / 話し言葉 / 音響モデル / 言語モデル / 話者適応 / 話し言葉音声認識 / 教師無し話者適応 / 単語グラフ統合 / クロスバリデーション / 話者インデキシング / 話者ベクトル / クロス適応 / 音素環境依存モデル / 話者クラス音響モデル
研究概要	本研究では,書き言葉の音声認識と比較し,認識が困難と考えられる話し言葉音声認識の性能向上を目指す.本研究では研究課題として,(1)音響・言語モデルの高性能化,(2)システム統合,(3)話者インデキシング,の 3点について重点的に取り組む.音響モデルの高精度化に関して離散分布モデルの識別学習,話者クラスモデル,quinphone,残響クラスモデルなどについて検討を行った.システム統合については,連続と離散分布モデルの統合.多種のquinphoneの統合,残響クラスモデルの統合について検討し有効性を示した.言語モデルに関してはクロス適応やクロスバリデーション適応の有効性を示した.さらに話者適応時に必要となる話者ベクトルを用いた話者インデキシングの性能向上について検討した.

報告書

(4件)

研究成果
(52件)

すべて 2013 2012 2011 2010 その他

すべて雑誌論文 (22件) (うち査読あり 20件) 学会発表 (25件) 図書 (4件) 備考 (1件)

[雑誌論文] A time-synchronous histogram equalization for noise robust speech recognition2013
- 著者名/発表者名
  Fumiya Takahashi, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of ICA
  
  巻: 採録決定ページ: 5-5
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013
- 著者名/発表者名
  Kei Sato, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of ICA
  
  巻: 採録決定ページ: 5-5
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] 識別学習を用いた離散混合分布 HMMによる音声認識2013
- 著者名/発表者名
  小坂哲夫,加藤正治
- 雑誌名
  
  情報処理学会論文誌
  
  巻: Vol. 54 No. 2 ページ: 436-442
- NAID
  110009537036
- URL
  https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&item_id=90262&item_no=1&page_id=13&block_id=8
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] 識別学習を用いた離散混合分布HMMによる音声認識2013
- 著者名/発表者名
  小坂哲夫，加藤正治
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 54 ページ: 436-442
- NAID
  110009537036
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013
- 著者名/発表者名
  Kei Sato, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of International Congress on Acoustics 2013
  
  巻: 1 ページ: 1-5
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] A time-synchronous histogram equalization for noise robust speech recognition2013
- 著者名/発表者名
  Fumiya Takahashi, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of International Congress on Acoustics 2013
  
  巻: 1 ページ: 1-5
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] Unsupervised Cross-Adaptation Approach for Speech Recognition by Combined Language Model and Acoustic Model Adaptation2011
- 著者名/発表者名
  Tetsuo Kosaka, Taro Miyamoto and Masaharu Kato
- 雑誌名
  
  Proc. of APSIPA ASC 2011, Thu-PM
  
  ページ: 4-4
- URL
  http://www.apsipa.org/proceedings_2011/pdf/APSIPA177.pdf
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Speaker Vector-Based Verification by Phonetic Class-Based Modeling2011
- 著者名/発表者名
  Tetsuo Kosaka, Naoki Tadokoro, Masaharu Kato and Masaki Kohda
- 雑誌名
  
  Journal of Information Assurance and Security
  
  巻: Vol. 6, No.3 ページ: 186-194
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Lecture Speech Recognition Using Discrete-Mixture HMMs2011
- 著者名/発表者名
  Tetsuo Kosaka, Akiyoshi Yamamoto, Takuya Kumakura, Masaharu Kato and Masaki Kohda
- 雑誌名
  
  IEEJ Transactions on Electrical and Electronic Engineering
  
  巻: Vol. 6 No. 1 号: 1 ページ: 23-29
- DOI
  10.1002/tee.20602
- NAID
  10027629753
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Unsupervised Cross-Adaptation Approach for Speech Recognition by Combined Language Model and Acoustic Model Adaptation2011
- 著者名/発表者名
  Tetsuo Kosaka, Taro Miyamoto, Masaharu Kato
- 雑誌名
  
  Proc.of APSIPA ASC 2011
  
  巻: (CD-ROM)
- 関連する報告書
  2011 実績報告書
- 査読あり
[雑誌論文] Lecture Speech Recognition Using Discrete-Mixture HMMs2011
- 著者名/発表者名
  Tetsuo Kosaka, Akiyoshi Yamamoto, Takuya Kumakura, Masaharu Kato, Masaki Kohda
- 雑誌名
  
  IEEJ Transactions on Electrical and Electromc Engineering
  
  巻: Vol.6, No.1 ページ: 23-29
- NAID
  10027629753
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Speaker Vector-Based Verification by Phonetic Class-Based Modeling2011
- 著者名/発表者名
  Tetsuo Kosaka, Naoki Tadokoro, Masaharu Kato, Masaki Kohda
- 雑誌名
  
  Journal of Information Assurance and Security
  
  巻: Vo1.6, No.3 ページ: 186-194
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Performance Improvement in Automatic Evaluation System of English Pronunciation by Using Various Normalization Methods2010
- 著者名/発表者名
  Masaru Kusumi, Masaharu Kato, Tetsuo Kosaka and Itaru Matsunaga
- 雑誌名
  
  Proc. of International Congress on Acoustics 2010
  
  巻: 257 ページ: 6-6
- URL
  http://www.acoustics.asn.au/conference_proceedings/ICA2010/cdrom-ICA2010/papers/p257.pdf
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Speech Recognition in Noise by Using Word Graph Combinations2010
- 著者名/発表者名
  Shunsuke Kuramata, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of International Congress on Acoustics 2010
  
  巻: 341 ページ: 6-6
- URL
  http://www.acoustics.asn.au/conference_proceedings/ICA2010/cdrom-ICA2010/papers/p341.pdf
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Speaker Adaptation Based on System Combination Using Speaker-Class Models2010
- 著者名/発表者名
  Tetsuo Kosaka, Takashi Ito, Masaharu Kato and Masaki Kohda
- 雑誌名
  
  Proc. of Interspeech2010
  
  ページ: 546-549
- URL
  http://www.isca-speech.org/archive/interspeech_2010/i10_0546.html
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Lecture Speech Recognition by Combining Word Graphs of Various Acoustic Models2010
- 著者名/発表者名
  Tetsuo Kosaka, Keisuke Goto, Takashi Ito and Masaharu Kato
- 雑誌名
  
  Proc. of Interspeech2010
  
  ページ: 2978-2981
- URL
  http://www.isca-speech.org/archive/interspeech_2010/i10_2978.html
- 関連する報告書
  2012 研究成果報告書
- 査読あり
[雑誌論文] Unsupervised Speaker Adaptation Using Speaker-Class Models for Lecture Speech Recognition2010
- 著者名/発表者名
  Tetsuo Kosaka, Yuui Takeda, Takashi Ito, Masaharu Kato, Masaki Kohda
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: Vo1.E93-D, No.9 ページ: 2363-2369
- NAID
  10027640196
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Speech Recognition in Noise by Using Word Graph Combinations2010
- 著者名/発表者名
  Shunsuke Kuramata, MasaharuKato, Tetsuo Kosaka
- 雑誌名
  
  Proc.of International Congress on Acoustics 2010
  
  巻: CD-ROM
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Speaker Adaptation Based on System Combination Using Speaker-Class Models2010
- 著者名/発表者名
  Tetsuo Kosaka, Takashi Ito, Masaharu Kato, Masaki Kohda
- 雑誌名
  
  Proc.of Interspeech2010
  
  巻: CD-ROM ページ: 546-549
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Lecture Speech Recognition by Combining Word Graphs of Various Acoustic Models2010
- 著者名/発表者名
  Tetsuo Kosaka, Keisuke Goto, Takashi Ito, Masaharu Kato
- 雑誌名
  
  Proc.of Interspeech2010
  
  巻: CD-ROM ページ: 2978-2981
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Quinphone HM-netを用いた単語グラフ統合に基づく講演音声認識2010
- 著者名/発表者名
  加藤正治, 小坂哲夫, 伊藤彰則, 牧野正三
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: SP2010-28 ページ: 37-42
- NAID
  110007969989
- 関連する報告書
  2010 実績報告書
[雑誌論文] 単語グラフ統合を用いた種々の雑音環境下での音声認識2010
- 著者名/発表者名
  倉又俊輔, 加藤正治, 小坂哲夫
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: SP2010-41 ページ: 37-42
- NAID
  110007890249
- 関連する報告書
  2010 実績報告書
[学会発表] クロスバリデーションによる教師なし言語適応における各種パラメータの最適化2013
- 著者名/発表者名
  高木瑛,加藤正治,小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 年月日
  2013-03-11
- 関連する報告書
  2012 研究成果報告書
[学会発表] 入力音声の韻律情報を用いたHMM音声合成2013
- 著者名/発表者名
  栗原大樹,加藤正治,小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 年月日
  2013-03-11
- 関連する報告書
  2012 研究成果報告書
[学会発表] 話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討2012
- 著者名/発表者名
  今野和樹,大山拓也,加藤正治,小坂哲夫
- 学会等名
  音声言語情報処理研究報告
- 発表場所
  東京工業大学
- 年月日
  2012-12-21
- 関連する報告書
  2012 実績報告書 2012 研究成果報告書
[学会発表] 日本人英語の自動発音評定における誤り規則の検討2012
- 著者名/発表者名
  佐藤慶,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  信州大学
- 年月日
  2012-09-21
- 関連する報告書
  2012 実績報告書 2012 研究成果報告書
[学会発表] 雑音下音声認識におけるフレーム重みづけヒストグラム同等化法の検討2012
- 著者名/発表者名
  高橋郁也,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  信州大学
- 年月日
  2012-09-19
- 関連する報告書
  2012 実績報告書 2012 研究成果報告書
[学会発表] 単語グラフ統合を用いた残響下音声認識の検討2012
- 著者名/発表者名
  倉又俊輔,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  神奈川大学横浜キャンパス
- 年月日
  2012-03-13
- 関連する報告書
  2012 研究成果報告書
[学会発表] 単語グラフ統合を用いた残響下音声認識の検討2012
- 著者名/発表者名
  倉又俊輔, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  神奈川大学
- 年月日
  2012-03-13
- 関連する報告書
  2011 実績報告書
[学会発表] 教師なし話者適応における各種パラメータの最適化2012
- 著者名/発表者名
  今野聡介,加藤正治,小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 年月日
  2012-03-09
- 関連する報告書
  2012 研究成果報告書
[学会発表] 自動発音評定における母音置換規則の検討2012
- 著者名/発表者名
  佐藤慶,加藤正治,小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 年月日
  2012-03-09
- 関連する報告書
  2012 研究成果報告書
[学会発表] 雑音下音声認識におけるヒストグラム同等化法の改良2012
- 著者名/発表者名
  高橋郁也,加藤正治,小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 年月日
  2012-03-09
- 関連する報告書
  2012 研究成果報告書
[学会発表] 教師なし話者適応における各種パラメータの最適化2012
- 著者名/発表者名
  今野聡介, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学
- 年月日
  2012-03-09
- 関連する報告書
  2011 実績報告書
[学会発表] 自動発音評定における母音置換規則の検討2012
- 著者名/発表者名
  佐藤慶, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学
- 年月日
  2012-03-09
- 関連する報告書
  2011 実績報告書
[学会発表] 雑音下音声認識におけるヒストグラム同等化法の改良2012
- 著者名/発表者名
  高橋郁也, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学
- 年月日
  2012-03-09
- 関連する報告書
  2011 実績報告書
[学会発表] 少量のデータによるヒストグラム同等化法の検討2011
- 著者名/発表者名
  湊竜一,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  島根大学松江キャンパス
- 年月日
  2011-09-20
- 関連する報告書
  2012 研究成果報告書
[学会発表] 少量のデータによるヒストグラム同等化法の検討2011
- 著者名/発表者名
  湊竜一, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  島根大学
- 年月日
  2011-09-20
- 関連する報告書
  2011 実績報告書
[学会発表] 教師なし音響・言語モデル適応の性能改善2011
- 著者名/発表者名
  宮本太郎,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  早稲田大学
- 年月日
  2011-03-10
- 関連する報告書
  2012 研究成果報告書 2010 実績報告書
[学会発表] 日本人英語の自動発音評定における精度向上の検討2011
- 著者名/発表者名
  久住大,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  早稲田大学
- 年月日
  2011-03-10
- 関連する報告書
  2012 研究成果報告書 2010 実績報告書
[学会発表] 日本人英語と米国人英語の音素モデル間距離の検討2010
- 著者名/発表者名
  久住大,加藤正治,小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  関西大学千里山キャンパス
- 年月日
  2010-09-16
- 関連する報告書
  2012 研究成果報告書
[学会発表] 日本人英語と米国人英語の音素モデル間距離の検討2010
- 著者名/発表者名
  久住大, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  関西大学
- 年月日
  2010-09-16
- 関連する報告書
  2010 実績報告書
[学会発表] Quinphone HM-Netに基づく講演音声認識2010
- 著者名/発表者名
  加藤正治,小坂哲夫,伊藤彰則,牧野正三
- 学会等名
  日本音響学会講演論文集
- 発表場所
  関西大学千里山キャンパス
- 年月日
  2010-09-14
- 関連する報告書
  2012 研究成果報告書
[学会発表] Quinphone HM-Netに基づく講演音声認識2010
- 著者名/発表者名
  加藤正治, 小坂哲夫, 伊藤彰則, 牧野正三
- 学会等名
  日本音響学会講演論文集
- 発表場所
  関西大学
- 年月日
  2010-09-14
- 関連する報告書
  2010 実績報告書
[学会発表] 単語グラフ統合を用いた種々の雑音環境下での音声認識2010
- 著者名/発表者名
  倉又俊輔,加藤正治,小坂哲夫
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  仙台市秋保温泉
- 年月日
  2010-07-23
- 関連する報告書
  2012 研究成果報告書
[学会発表] Quinphone HM-netを用いた単語グラフ統合に基づく講演音声認識2010
- 著者名/発表者名
  加藤正治,小坂哲夫,伊藤彰則,牧野正三
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  九州大学筑紫キャンパス
- 年月日
  2010-06-18
- 関連する報告書
  2012 研究成果報告書
[学会発表] 入力音声の韻律情報を用いたHMM音声合成
- 著者名/発表者名
  栗原大樹, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 関連する報告書
  2012 実績報告書
[学会発表] クロスバリデーションによる教師なし言語適応における各種パラメータの最適化
- 著者名/発表者名
  高木瑛, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部
- 関連する報告書
  2012 実績報告書
[図書] 電子情報通信学会知識ベース ,2群画像・音・言語,7編音声認識と合成 ,「2-4話者・環境適応」(原島博, 他編)2011
- 著者名/発表者名
  小坂哲夫
- 総ページ数
  3
- 出版者
  電子情報通信学会
- 関連する報告書
  2012 研究成果報告書
[図書] "Improvement of Lecture Speech Recognition by Using Unsupervised Adaptation," E-Activity and IntelligentWeb Construction: Effects of Social Design2011
- 著者名/発表者名
  Tetsuo Kosaka, Takashi Kusama, Masaharu Kato and Masaki Kohda(T.Matsuo and T.Fujimoto ed.)
- 出版者
  Information Science Reference
- 関連する報告書
  2012 研究成果報告書
[図書] E-Activity and Intelligent Web Construction, "Improvement of Lecture Speech Recognition by Using Unsupervised Adaptation"(16章)2011
- 著者名/発表者名
  T.Matsuo, 他編
- 出版者
  IGI Global
- 関連する報告書
  2011 実績報告書
[図書] 電子情報通信学会知識ベース, 群画像・音・言語, 7編音声認識と合成, 「2-4話者・環境適応」, 小坂哲夫(執筆担当)2011
- 著者名/発表者名
  原島博, 他編
- 総ページ数
  4
- 出版者
  電子情報通信学会
- 関連する報告書
  2010 実績報告書
[備考] 小坂研究室
- URL
  http://eieweb.yz.yamagata-u.ac.jp/~kosaka/
- 関連する報告書
  2012 実績報告書

高精度な話し言葉認識技術の開発

研究代表者

小坂 哲夫 山形大学, 大学院・理工学研究科, 教授 (50359569)

3,900千円 (直接経費: 3,000千円、間接経費: 900千円)

報告書

研究成果

[雑誌論文] A time-synchronous histogram equalization for noise robust speech recognition2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 識別学習を用いた離散混合分布 HMMによる音声認識2013

著者名/発表者名

雑誌名

NAID

URL

関連する報告書

[雑誌論文] 識別学習を用いた離散混合分布HMMによる音声認識2013

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] An investigation of vowel substitution rules in the automatic evaluation system of English pronunciation2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A time-synchronous histogram equalization for noise robust speech recognition2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Unsupervised Cross-Adaptation Approach for Speech Recognition by Combined Language Model and Acoustic Model Adaptation2011

著者名/発表者名

雑誌名

URL

関連する報告書

[雑誌論文] Speaker Vector-Based Verification by Phonetic Class-Based Modeling2011

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Lecture Speech Recognition Using Discrete-Mixture HMMs2011

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] Unsupervised Cross-Adaptation Approach for Speech Recognition by Combined Language Model and Acoustic Model Adaptation2011

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Lecture Speech Recognition Using Discrete-Mixture HMMs2011

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Speaker Vector-Based Verification by Phonetic Class-Based Modeling2011

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Performance Improvement in Automatic Evaluation System of English Pronunciation by Using Various Normalization Methods2010

著者名/発表者名

雑誌名

URL

関連する報告書

[雑誌論文] Speech Recognition in Noise by Using Word Graph Combinations2010

著者名/発表者名

雑誌名

URL

関連する報告書

[雑誌論文] Speaker Adaptation Based on System Combination Using Speaker-Class Models2010

著者名/発表者名

雑誌名

URL

関連する報告書

[雑誌論文] Lecture Speech Recognition by Combining Word Graphs of Various Acoustic Models2010

著者名/発表者名

雑誌名

URL

小坂哲夫山形大学, 大学院・理工学研究科, 教授 (50359569)