研究実績の概要 |
昨年度作成した単語リストはword familyを単位とした見出し語のリストであるため,見出し語以外の語形の頻度が高い場合(例えば見出し語clinicよりも形容詞形のclinicalのほうが遥かに頻度が高い)など,実際の使用状況との乖離が生じるという問題が明らかになった。さらに,基本となる1000~2000語レベルをリスト作成の対象から除外したことで,基本語が分野に特徴的に使用されているケースを取りこぼしている可能性がある。これらの欠点を補うために,本年度はmulti-word unit,特に単語連鎖と呼ばれる二語(bigram),三語(trigram),四語(4-gram)からなる表現を昨年度作成した3つのコーパス(患者向け医療情報[PE],専門基礎教科書[TB],学術研究論文[RA])からそれぞれ抽出し,単語リストを補う方法を模索した。例えば,患者向け医療情報コーパスからbigramの名詞句を抽出するとx ray(s), breast cancer, blood vessels, spinal cord, radiation therapy,side effects, coronary arteryなどが高頻度で出現し,単一の語だけをリスト化するよりも実践に役に立つ表現が抽出できることがわかった。 語彙リストの改良作業と並行して,実際の授業で使用している読解教材の語彙と語彙リストの関係を分析した。学生が1学期間に使ったリーディング教材の中にはPEリスト(299 word family)中の189 word familyが含まれていた。リストのカバー率は約11%で,授業で使用している読解教材には,オーセンティックな患者向け医療情報テキストに使用されている語彙がある程度含まれていることがわかった。今後の教材選択において作成したリストが活用できるであろうと考えられる。
|