研究分担者 |
氏原 淳一 NHK放送技術研究所, 次長
牧野 正三 東北大学, 応用情報学研究センター, 助教授 (00089806)
三輪 譲二 岩手大学, 工学部, 助教授 (60125664)
松本 弘 信州大学, 工学部, 助教授 (60005452)
加藤 正信 東北大学, 文学部, 教授 (90004035)
|
研究概要 |
本研究は, 音声から文字系列への変換を高い精度で行うシステムのプロトタイプの作成を目的としている. このようなタスクを意識しないシステムを構築するためには, 音素認識や話者適応法の確立は勿論のこと, 一般的な日本語主体の持つ性質を整理し, その制約を認識に有効に利用する必要がある. これらの研究を研究分担者間で分野を定めて, 協力して行った. このシステムは音響処理部, 文節検出部, 統語処理部の3つのサブシステムからなる. 音響処理部の研究として, 音素認識の研究と話者適応化の研究を行った. 音素認識の研究の1つは, 音素判別フィルタの研究であり, 従来の音素認識システムにあったヒューリステックな部分を排除し, ラベリングしたデータがあれば誰にでもシステムを構成できる方法である. この方法によって従来システムと同程度の音素認識結果を得た. 他は, 時間変化パターンの形状の特徴を用いることによって, 個人差や調音結合に影響されない音素認識手法の開発を目指すものであり, 事後確率や中性カテゴリを利用することが有効であることを示した. 話者適応化では, ベクトル量子化誤差から少数の個人差を抽出し, それを内挿することによりスペクトルを入力話者に適用化できることを示した. 文節検出部では, 音素系列から文節を検出するための構文駆動型連続DP法を提案した. 構文駆動型連続DP法に必要な日本語の文節構造を有限オートマトンで表した文節オートマトンを提案した. この方法によって文節内の構文解析と統語処理部のための機能構造の生成を検出と同時に行うことができる. 統語処理部では, 文節間の修飾が可能か否かの情報を用いて機能構造を融合していき, 最終的に文を認識する. 機能構造はフレームで表され, 文節の始端, 終端や尤度, また構文・意味情報に基づく修飾可能な文節の種類が記述されている. 意味情報によって文認識率が格段に改善されることを実験で確かめた.
|