研究課題/領域番号 |
10680368
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 山形大学 |
研究代表者 |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
研究分担者 |
加藤 正治 山形大学, 工学部, 助手 (10250953)
伊藤 彰則 山形大学, 工学部, 助教授 (70232428)
|
研究期間 (年度) |
1998 – 2000
|
キーワード | 大語彙連続音声認識 / 音響モデル / 言語モデル / デコーダ / 隠れマルコフ網 / N-gram / 話者適応 / タスク適応 |
研究概要 |
新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムを構築し、下記の研究成果を得た。 (1)音響モデル 隠れマルコフ網(HM-Net)は、音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり、高精度かつ頑健な音声認識を実現する音響モデルとして有効である。本研究では、状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した。また、音響モデルの最尤線形回帰(MLLR)ベース話者適応において、BIC基準に基づく回帰クラスタの自動設定法を提案し、MAP法との併用、SATコンパクトモデルの利用等も検討した。 (2)言語モデル 大量の一般的な言語コーパスと、少量の特定タスクのサンプルから、特定タスク向きのN-gramを重み付き混合で作成するタスク適応について検討した。単語誤り率との相関がより良い言語モデルの評価尺度として、評価テキストに出現する単語の言語尤度と、その単語が出現した文脈における最大尤度との差に基づく新しい評価尺度を提案し、パープレキシティより優れていることを確認した。確率文脈自由文法(SCFG)のパラメータ推定に要する処理量を大幅に削減するために、文節単位の係り受け制約をもつSCFGを提案し、このSCFGとTrigramを併用すると、Trigram単独より性能が良いことを確認した。 (3)デコーダ 大語彙連続音声認識のための高速な探索手法として、認識の前処理で音素グラフを作成し、認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する手法を提案した。また、単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において、bigramによるリスコアリングに基づく、単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討した。 (4)ソフトウエアツール 単語n-gramとクラスn-gramが作成可能なツールキットを作成した。このツールキットは、CMU-Cambridge SLM Toolkitとコマンドレベルで互換性がある。また、n-gram出現回数の混合による言語モデルや、線形結合による言語モデルの組み合わせをサポートしている。
|