研究課題/領域番号 |
06610425
|
研究種目 |
一般研究(C)
|
配分区分 | 補助金 |
研究分野 |
英語・英米文学
|
研究機関 | 北海道大学 |
研究代表者 |
園田 勝英 北海道大学, 言語文化部, 教授 (70113694)
|
研究期間 (年度) |
1994 – 1995
|
研究課題ステータス |
完了 (1995年度)
|
配分額 *注記 |
1,900千円 (直接経費: 1,900千円)
1995年度: 300千円 (直接経費: 300千円)
1994年度: 1,600千円 (直接経費: 1,600千円)
|
キーワード | 英語史 / 中英語(Middle English) / コーパス / タグ付け / 統語解析 / タグ付コーパス / 文法的タグ / Margaret Paston / SGML |
研究概要 |
(1)最近の理論言語学の展開を念頭において、中英語テキストのタグ付きコーパスをつくるためのタグセットを設計した。タグセットはテキストのコンピュータによる言語分析を容易にすることを目的とするものである。個々の語の標準的綴り、品詞、活用を明示する語レベルのタグと、文の統語構造を明示する統語タグからなる、文書構造を示すタグは特に作らなかった。それらは、既存のCOCOA formatやSGMLを援用することとした。 (2)Margaret Pastonの書簡に設計されたタグを埋め込んで、試験的コーパスを作成した。68,000語からなるこのコーパスはタグにより、「読み」がコード化されている。 (3)試作コーパスを用いて、綴り、前置詞、否定辞、語順の調査を行なった。綴りにつては、各書記ごとの特徴を分析した。前置詞についてはofの分布に関して興味ある観察が行なわれた。試作ヒコーパスはこの点で満足の行く結果を出した。 (4)タグ付けの自動化の研究の一部として、形態素解析ソフトウェアのPC-KIMMOを検討した。PC-KIMMOを実験に現代英語のテキストに用いて、その結果を語彙表の研究に応用した。歴史的コーパスのタグ付けには、現在のところ有用でないことが判明した。
|