• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

高精度な話し言葉認識技術の開発

研究課題

研究課題/領域番号 22500144
研究機関山形大学

研究代表者

小坂 哲夫  山形大学, 大学院・理工学研究科, 准教授 (50359569)

キーワード話し言葉音声認識 / 音響モデル / 言語モデル / 話者インデキシング / 音素環境依存モデル / クロス適応 / 話者クラス音響モデル / 話者ベクトル
研究概要

1.音響モデルの精密化の検討:音響モデルを精密化する手法として音素環境依存モデルが用いられている.一般的にtriphoneが用いられるが,前後2音素の違いを考慮するquinphoneにより更なる性能向上が得られる.しかしquinphoneを用いる場合,発話速度の違いなど発話それぞれについて最適な状態数が異なる.これに対し単語グラフ統合を用いることにより状態数の自動最適化を図る手法を提案した.また話者性の問題に対し,話者クラス音響モデルを利用することにより認識性能が向上することを示した
2.言語モデルの高精度化:言語モデルの高精度化を図る場合,学習テキストの量を増加することが有効であり,そのための一手法としてWeb上のテキストの利用が考えられる.どのようなWebテキストを選択することが話し言葉認識に有効かの検討を行った.また言語モデルをタスクに適応することにより精度が向上するが,その場合クロス適応の手法を用いると性能向上が得られることが分かった
3.話者インデキシングの検討:話者ベクトルに基づく話者インデキシングの検討を行った.話者ベクトルを生成する場合の音響モデルとして,音素を考慮したモデル化が有効であることを示した.また雑音が混入する場合,話者ベクトルの軸として雑音を表現する軸を追加することが有効であることが分かった.以上1,2は音声認識自体の性能向上に寄与する.また会議音声など複数話者が発声している状況において話者適応を行う場合,話者の分類が必要である.3はこのための必須技術であり,インデキシングの性能向上が話者適応の性能向上に繋がると考えられる.

  • 研究成果

    (13件)

すべて 2011 2010

すべて 雑誌論文 (8件) (うち査読あり 6件) 学会発表 (4件) 図書 (1件)

  • [雑誌論文] Lecture Speech Recognition Using Discrete-Mixture HMMs2011

    • 著者名/発表者名
      Tetsuo Kosaka, Akiyoshi Yamamoto, Takuya Kumakura, Masaharu Kato, Masaki Kohda
    • 雑誌名

      IEEJ Transactions on Electrical and Electromc Engineering

      巻: Vol.6, No.1 ページ: 23-29

    • 査読あり
  • [雑誌論文] Speaker Vector-Based Verification by Phonetic Class-Based Modeling2011

    • 著者名/発表者名
      Tetsuo Kosaka, Naoki Tadokoro, Masaharu Kato, Masaki Kohda
    • 雑誌名

      Journal of Information Assurance and Security

      巻: Vo1.6, No.3 ページ: 186-194

    • 査読あり
  • [雑誌論文] Unsupervised Speaker Adaptation Using Speaker-Class Models for Lecture Speech Recognition2010

    • 著者名/発表者名
      Tetsuo Kosaka, Yuui Takeda, Takashi Ito, Masaharu Kato, Masaki Kohda
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: Vo1.E93-D, No.9 ページ: 2363-2369

    • 査読あり
  • [雑誌論文] Speech Recognition in Noise by Using Word Graph Combinations2010

    • 著者名/発表者名
      Shunsuke Kuramata, MasaharuKato, Tetsuo Kosaka
    • 雑誌名

      Proc.of International Congress on Acoustics 2010

      巻: CD-ROM

    • 査読あり
  • [雑誌論文] Speaker Adaptation Based on System Combination Using Speaker-Class Models2010

    • 著者名/発表者名
      Tetsuo Kosaka, Takashi Ito, Masaharu Kato, Masaki Kohda
    • 雑誌名

      Proc.of Interspeech2010

      巻: CD-ROM ページ: 546-549

    • 査読あり
  • [雑誌論文] Lecture Speech Recognition by Combining Word Graphs of Various Acoustic Models2010

    • 著者名/発表者名
      Tetsuo Kosaka, Keisuke Goto, Takashi Ito, Masaharu Kato
    • 雑誌名

      Proc.of Interspeech2010

      巻: CD-ROM ページ: 2978-2981

    • 査読あり
  • [雑誌論文] Quinphone HM-netを用いた単語グラフ統合に基づく講演音声認識2010

    • 著者名/発表者名
      加藤正治, 小坂哲夫, 伊藤彰則, 牧野正三
    • 雑誌名

      電子情報通信学会技術研究報告

      巻: SP2010-28 ページ: 37-42

  • [雑誌論文] 単語グラフ統合を用いた種々の雑音環境下での音声認識2010

    • 著者名/発表者名
      倉又俊輔, 加藤正治, 小坂哲夫
    • 雑誌名

      電子情報通信学会技術研究報告

      巻: SP2010-41 ページ: 37-42

  • [学会発表] 教師なし音響・言語モデル適応の性能改善2011

    • 著者名/発表者名
      宮本太郎,加藤正治,小坂哲夫
    • 学会等名
      日本音響学会講演論文集
    • 発表場所
      早稲田大学
    • 年月日
      2011-03-10
  • [学会発表] 日本人英語の自動発音評定における精度向上の検討2011

    • 著者名/発表者名
      久住大,加藤正治,小坂哲夫
    • 学会等名
      日本音響学会講演論文集
    • 発表場所
      早稲田大学
    • 年月日
      2011-03-10
  • [学会発表] 日本人英語と米国人英語の音素モデル間距離の検討2010

    • 著者名/発表者名
      久住大, 加藤正治, 小坂哲夫
    • 学会等名
      日本音響学会講演論文集
    • 発表場所
      関西大学
    • 年月日
      2010-09-16
  • [学会発表] Quinphone HM-Netに基づく講演音声認識2010

    • 著者名/発表者名
      加藤正治, 小坂哲夫, 伊藤彰則, 牧野正三
    • 学会等名
      日本音響学会講演論文集
    • 発表場所
      関西大学
    • 年月日
      2010-09-14
  • [図書] 電子情報通信学会知識ベース, 群画像・音・言語, 7編音声認識と合成, 「2-4話者・環境適応」, 小坂哲夫(執筆担当)2011

    • 著者名/発表者名
      原島博, 他編
    • 総ページ数
      4
    • 出版者
      電子情報通信学会

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi