英語学習者および英語母語話者コーパスのデータの追加収集をした。平成25・26年度に収集したデータを整理し、平成27年7月にNICE 3.0 として一般公開した。さらに、学内に加え、学外で研究協力を得てデータの追加収集を行い、学習者データ185ファイル(約5万7千語)、母語話者データ36ファイル(約3万5千語)をコーパス化した。これらのデータは、NICE 3.1 として一般公開する予定である。 NICE 3.1の学習者データについて2~6グラムの遷移確率を計算したが、観察結果から3グラム表現を分析対象とすることとした。また、低頻度語による分布の偏りが見られたため、頻度5回以上の表現に限って分析することとした。母語話者データについては、収集ファイル数が少なかったため直接の比較を断念し、一般的な英語表現の傾向と比較するためにBNCの書き言葉データとの比較を行った。学習者データ中で5回以上出現した3グラム表現をBNCデータから検索し、各表現の遷移確率を計算し、各表現の遷移確率の差を計算し、その差が大きい表現と少ない表現とを比較分析した。 視線計測による分析については、追加のデータ収集を行い、以下の分析を行った。まず、構文レベルで、二重目的語を取ることのできる動詞のうち前置詞句を使う傾向の違いによる影響を調べたところ、英語学習者において差が見られ、英語学習者も文の要素の生起位置の順序に関する確率的知識を有している可能性が示唆された。また、句レベルの連語表現の自然・不自然さに関する分析でも、学習者はその差に敏感であるという結果が得られた。次に、形態素レベルで、主語と動詞の数の一致に関して、主語の名詞と動詞直前の名詞の複数のsの有無による影響の差を分析した結果、学習者はそれほど敏感ではなく、むしろ、直前の単語との表面的な一致・不一致に影響を受ける傾向が示唆された。
|