本研究では英文テキストの語彙特性をフロファイルとしてまとめる手法を開発し、その効果を検証した。前年に引き続き、辞書ファイルの改訂を継続し、語彙リストの完成度を高めた。同時に、実際のテキストを使ってプロファイリングを試行することにより、出力の精度を検証した。高等学校の英語教科書、高校副読本の英文テキストを使い、語彙の難易度が経験的な観察と一致するかを調べた。また、新聞記事、雑誌記事を使って、政治・経済、自然科学・工学などのジャンルを特定する試みを行い、プロファイリングの精度の検証を行った。この結果、小説など創作にかかわるジャンルでは同じジャンルであってもプロファイリングの結果に差が出ることがわかった。 また、語彙にかかわって文長、とりわけ T-unit とよばれる単位での語数がテキストの性質をプロファイリングに取り込む試みを行った。この結果、創作にかかわるジャンルでは文長に大きな差がみられることがあきらかになった。話しことばと書きことばの区別では、話しことばの特徴として定型表現の多用、また、フライングとよばれる言い直しの多用が特徴的であった。この他、学習者の英語と母語話者の英語を判別する試みを行った。この結果、学習者の英語の特徴として、話しことばと書きことばが未分化であること、「プレハブ表現」ともいうべき定型表現で構成されるところが大きいことがあきらかになった。プレハブ表現の多用はきわめて顕著で、学習者の英語はトライグラム頻度上位の表現だけでテキスト全体の10分の1に達するほどであった。全体で見れば学習者の英語は母語話者の英語と比較して、2倍から5倍の冗長度がみられた。
|