作業の基本となるレンマ辞書の改訂、増強を行った。現在の辞書はレンマとタイプが同じ形態のものは記述を行っていない。しかし、スクリプトで作業するには辞書のサイズが大きくなってもレンマをすべて収録しておくことが望ましい。このため、高校英語教科書、高校レベルの英語副読本に現れる語彙を対象とし、レンマ辞書にほぼもれなく収録するよう改訂作業を行った。 本年度に予定した作業のうち、最も重要なものはコーパスに現れる語彙をジャンル別に分類し、その異動についての集合、補集合を作ることであった。British National Corpusによる作業の前に、全体の見通しをつけるため、規模の小さいBrown Corpusを使ってテストを行った。ジャンル別に語彙の集合をとってみると、複数のジャンルに共通に出現する語彙が予想以上に多いことがわかった。語彙はジャンルごとに重複しながら分布している。このため、あるジャンルに特徴的に現れる特定の語彙を規定するよりも、どのくらいの割合で現れるか、その出現率を指標とすることを案出した。 難易度情報は新しく概念規定を行った。コーパスにおける頻度情報は基本的に難易度情報の基礎となるものである。しかし、高校レベルの副読本と比べると、一致しない部分が多い。これは母語話者の必要性と英語を外国語として学んでいる生徒・学生の必要とするところが異なるからである。このため、コーパスと高校副読本の頻度情報が大きく異なる場合は、大学英語教育学会により公開されているJACET基本語リスト、学習英和辞典の重要語情報をもとに補正を行った。
|