日本語音声対話文においてアクセントを中心とした音声情報を用いて未知語を抽出し、その品詞名や活用などの語彙情報を獲得する研究をめざした。まず基礎研究として、語彙の出現確率情報と、コーパスのタグ付けとを相互的に学習し、事例ベースの語彙知識獲得メカニズムを設計した。これはほぼ順当な成果をあげ、95パーセントの正解率を得ることができた。 さらに平仮名文にアクセント情報を付与したデータを入力して、形態素解析を行うシステムを作成した。これにより多量な形態素列候補を著しく絞り込むことができた。これは音声文字列モデルにおいて、未知語の確定とその意味情報の抽出に対して適切なデータを供給するものである。現在、実際の未知語知識生成の実装を進めている。
|