1.複数の文字認識ソフトを使用し、各々の長所・短所に対応した読み取りシステムの独自の開発を試み、以下の点に関する成果を得た。所謂「合わせ活字」に該当する画像データに複数の英文字を対応させることのできないソフトに対しては、FEPで、例えばffという2文字が合わさった画像には、2バイト文字の漢字「因」を振り当てる。同様の手法で、遭遇する合わせ活字を「仮字」として認識させ、後に、それをバッチファイ処理で、英字2文字に変換する。また、英文行末のハイフンで分割された単語を1つに結合させ、更に、2単語がスペースの誤認識により、融合して認識された場合には、独自に構築した機械辞書に基づき、それを分割する。得られたファイルに、次の段階として、「1行・1文形式」にフォーマットを統一するための行整形プログラムを開発した。これにより、可能な限りの自動英文読み取りが今後、更に実現性を高めている。 2.独自に構築した機械辞書に準拠して、各英単語に、その品詞を示す標識を付与するプログラムをC言語を基幹として開発した。また、新出の単語に対しても、語尾形態辞書による品詞推測ルーチン、及び、大文字で始まる固有名詞や、イディオム、複合語には、それぞれに対して別個に機能するルーチンを設定して、全体を1つのプログラムとして統合した。 3.なお、来年度の目標の1つである、構文解析に向けて、SEC、LOBの両コーパスにおける動詞の出現頻度、および、ジャンル別の分布状況をも網羅した、完全な動詞リストが完成し、その成果を紀要論文に発表した。重要な構文情報を動詞が担うと考えるためであり、この成果を、上述の各処理を経て得られたデータ文の解析に応用するのが今後の課題である。
|