研究概要 |
(1)最近の理論言語学の展開を念頭において、中英語テキストのタグ付きコーパスをつくるためのタグセットを設計した。タグセットはテキストのコンピュータによる言語分析を容易にすることを目的とするものである。個々の語の標準的綴り、品詞、活用を明示する語レベルのタグと、文の統語構造を明示する統語タグからなる、文書構造を示すタグは特に作らなかった。それらは、既存のCOCOA formatやSGMLを援用することとした。 (2)Margaret Pastonの書簡に設計されたタグを埋め込んで、試験的コーパスを作成した。68,000語からなるこのコーパスはタグにより、「読み」がコード化されている。 (3)試作コーパスを用いて、綴り、前置詞、否定辞、語順の調査を行なった。綴りにつては、各書記ごとの特徴を分析した。前置詞についてはofの分布に関して興味ある観察が行なわれた。試作ヒコーパスはこの点で満足の行く結果を出した。 (4)タグ付けの自動化の研究の一部として、形態素解析ソフトウェアのPC-KIMMOを検討した。PC-KIMMOを実験に現代英語のテキストに用いて、その結果を語彙表の研究に応用した。歴史的コーパスのタグ付けには、現在のところ有用でないことが判明した。
|