日本語音声認識のための統計的言語モデルとそのタスク適応に関する研究

研究課題

研究課題/領域番号	09780307
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	山形大学
研究代表者	伊藤彰則山形大, 工学部, 講師 (70232428)
研究期間 (年度)	1997 – 1998
研究課題ステータス	完了 (1998年度)
配分額 *注記	2,000千円 (直接経費: 2,000千円) 1998年度: 900千円 (直接経費: 900千円) 1997年度: 1,100千円 (直接経費: 1,100千円)
キーワード	統計的言語モデル / 形態素解析 / 読み付与 / 連続音声認識
研究概要	今年度の研究では,「日本語連続音声認識のための形態素解析によらない統計的言語モデル」の研究を行った.この研究は2つのサブテーマから成っている.一つは統計的に選ばれた文字列を単位とした言語モデルの作成であり,もう一つは統計的手法に基づく漢字かな混じり文への読みの付与である. 文字列を単位とした言語モデルの作成においては,提案法の評価実験として,さまざまな文字列への分割方法の比較実験,および学習テキストと評価テキストのタスクと規模を変えた実験を行った.その結果,頻度による文字列の抽出と左最長一致法による解析の組み合わせにおいて,もっとも大きいパ-プレキシティ低減効果(最大9.3%)が見られた.また,コーパスによる性能差を見るために,3種類の対話コーパスと,書き言葉であるEDRコーパスを用いた比較実験を行った.その結果,単一タスクであるATR会話コーパスにおけるパ-プレキシティ低減率がもっとも大きかった.これは,学習テキストのみから統計量の推定と分割単位の双方を決定するためであり,本手法の適用限界を示すものと言うことができる. 統計的な手法を用いた読みの付与では,EDRコーパスを用いて,N-gramモデルを応用した読み付与システムを作成し評価した.その結果,当該文字の前後1文字を用いてモデルを作成した場合が最も高性能であることが明らかとなった.システムの最高性能として96.27%の読み付与精度が得られた.

報告書

(1件)

1997 実績報告書

研究成果
(1件)

すべてその他

すべて文献書誌 (1件)

[文献書誌] 伊藤彰則, 好田正紀: "かな・漢字文字列の連鎖統計による言語モデル" 電子情報通信学会論文誌. J79-D-II・No12. 2062-2069 (1996)
- 関連する報告書
  1997 実績報告書