研究課題/領域番号 |
26770201
|
研究機関 | 成城大学 |
研究代表者 |
石井 康毅 成城大学, 社会イノベーション学部, 准教授 (70530103)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 句動詞 / 教科書 / コーパス |
研究実績の概要 |
1. データの整備 学習者のインプットに相当する検定教科書のデータ整備については、本年度より使用が開始された高等学校用のコミュニケーション英語IIIの検定教科書を入手し、主要な教科書の電子データを整備した。コミュニケーション英語I・IIと英語表現I・IIに関してもデータの整備を継続して行った。 学習者のアウトプットに相当する学習者コーパスの整備については、JEFLL (Japanese EFL Lerner) Corpus(書き言葉)とNICT JLE Corpus(話し言葉)を対象とし、前処理・タガーとレマタイザーによる処理・well-formed XMLデータへの変換という一連の作業を行い、データの整備を完了した。 句動詞の正規表現による定義については、品詞タグ付与の誤りやレマ・語形・品詞タグのパターンによる句動詞の特定自体に精度の限界もあるため100%の精度での抽出は不可能であるということは当然であるが、再現率(recall)よりも適合率(precision)を重視してパターン定義を見直した。 2. データの分析 コーパス・言語資源における句動詞使用頻度の調査としては、BNCのWritten part、BNCのSpoken part、Googleの1兆語のデータに基づくn-gramデータ(Web 1T 5-gram, Version 1)、学習者向け英英辞書の用例を対象とした、句動詞の頻度データ取得を行った。検定教科書のデータについては、整備が完了したデータでのパイロット調査を行い、前処理・タガーとレマタイザーによる処理・well-formed XMLデータへの変換・XMLデータからの句動詞頻度の取得という一連の手法が一定の精度でうまく機能するということを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
調査対象である検定教科書が約130点あり、各教科書の構成・フォーマットが多様である中、電子化対象部分を見極めながら作業する必要があったため、当初の想定よりも時間を要している。 しかしながら、分析手法は確立しているため、データ整備が完了すれば集計作業は短期間で行うことができる。
|
今後の研究の推進方策 |
平成28年度の前半にデータ整備を完了し、既に完成している句動詞のパターン情報を利用して、各種コーパスにおける頻度集計を終える予定である。これで必要なデータが全て揃うため、全てのコーパス・言語資源データを対象として、句動詞候補の項目と頻度を調査する。 最終的には、分析結果を統合し、他のコーパス・言語資源データも参照しながら、日本人英語学習者のための重要句動詞項目を特定し、教育に直接活用できる句動詞リストを作成することを目指す。この句動詞リストは学習者のモデル・インプット・アウトプットを基にしながらも、母語話者の使用頻度と認知度が高い項目と、頻度にかかわらず学習者が習得すべき項目を含むことから、教育上の配慮も反映したものとなるため、学習者のコミュニケーション力向上に資することが期待される。
|
次年度使用額が生じた理由 |
データ整備の段階が予想以上に困難で時間がかかり、研究成果発表・情報収集のための学会出張が予定通りできなかったため。
|
次年度使用額の使用計画 |
データ整備を速やかに完了し、平成28年度は最新の研究情報収集・研究成果発表のために学会出張・論文投稿を行う予定である。
|