昨年度は、言語データベースを作成した後、各種の表現規則抽出の方法を検討したが、本年度は、より汎用的な日本語表現の意味辞書作成を目指して、表現抽出プログラムの基本試作を行なった。また、そのプログラムを言語データベースに適用して、表現抽出のために実験を行った。 1. 連鎖型/離散型共起表現抽出プログラムの基本試作 連鎖型/離散型共起表現抽出基本機能、字種制限、特定品詞、単語文法属性に着目した抽出制御機能を実現し、形態素解析プログラムALT-JAWSとの結合実験ができるようにした。 2. 共起表現抽出実験 機械翻訳用表現意味辞書作成に使用する観点から、原文の単語置き換え機能を駆使して、以下の3種類の実験的検討を行った。 (1) 動詞と名詞から構成される表現(単文相当)の抽出 (2) 複数の動詞を含む表現(複文・重文に相当)の抽出 (3) 複数の名詞を含む表現(名詞句に相当)の抽出 これらの結果、目的に合わせた単語置き換えを行うことで、抽出されるゴミの割合は大幅に減少し、人手作業が可能なデータが得られる見込みとなった。
|