研究概要 |
3ヵ年計画の初年度にあたる本年度は英語のgraded readersのコーパスの作成を行った。対象としたのはCambridge English Readers(64冊),Penguin Readers(359冊),Macmillan Readers(143冊),Oxford Bookworms Library(175冊)の4大シリーズである。1冊ごとに(1)スキャナーで画像ファイルを作成し、(2)OCRソフトでテキストデータに変換し、(3)読み取りデータの誤りの修正を行う、の各作業を行った。(2)までの作業は完了したが、読み取りデータの誤りの修正についてはワープロソフトのスペルチェッカーでは見逃されてしまう読み取りデータの誤りが少なくなく、正確さを期すためには結局全文を人手で確認する必要があった。このため当初予定していたよりも非常に多くの時間がかかることになり、作業(3)は現在も継続中である。この作業までが終了すれば、741冊分の段階別読み物コーパスが完成する。その内訳は、Cambridge English Readers(Sterter:4冊、レベル1:11冊、レベル2:10冊、レベル3:11冊、レベル4:10冊、レベル5:10冊、レベル6:8冊),Penguin Readers(Easystarts:33冊、レベル1:34冊、レベル2:83冊、レベル3:82冊、レベル4:49冊、レベル5:48冊、レベル6:30冊),Macmillan Readers(レベル1:13冊、レベル2:32冊、レベル3:33冊、レベル4:11冊、レベル5:41冊、レベル6:13冊),Oxford Bookworms Library(Starter:21冊、ステージ1:25冊、ステージ2:32冊、ステージ3:31冊、ステージ4:30冊、ステージ5:19冊、ステージ6:17冊)である。
|