研究概要 |
我々は日本語Dictationシステムを開発した。このシステムは不特定話者が発声した連続文章音声を日本語の文字系列に変換することを目指している。システムは音響処理部,文節抽出部,統語処理部にわけられる。本研究では、文章構造の明確な論説文を朗読した音声を対象とした。音響処理部では、短時間音声スペクトルから時間一周波数パタンを用いて、セグメント特徴が抽出され、それを基に音素系列が抽出される。文節抽出部では、日本語の文節をオートマトンで表現し、連続DP法と組み合せた構文駆動型DP法を用いて、音素系列から文節単位のスポッテイングを行う。構文駆動型DPの適用は、はじめに、実質語、あるいは活用語の語幹について連続DPの計算を行い、その検出結果に基いて後続する可能性のある機能語、活用語尾をオートマトンの制御により予測し、前段での連続DPの状態量を初期値としてDPの計算を行う。最終的に、文節として閉じており、閾値を満たす文節侯補をすべて検出する。構文駆動型DPの採用により、必要な計算量記憶量とも100分の1削減される。文節のオートマトン表現は、自然言語処理にとっても有効である。統語処理部では、抽出された文節候補に対して語彙項目側から、枠組と機能素性が与えられる。この機能素性を用いて、隣接する2つの文節的単位相互での依存関係がチェックされる。2つの単位が接続した時の入力系列との尤度が計算され閾値処理が行われる、依存関係があり、尤度が十分に高ければ、それらの単位が融合され新しい部分木が生成される。統語処理は、C,Y,K,のアルゴリズムをベースとしている。現在の所、文節単位の発声で、音素認識率85%で文章認識率60%程度、95%で文章認識率80%程度の認識率が得られているが、今後規則の精密化、係り受け処理の導入により、認識率の改善が得られるものと考えている。
|