研究課題/領域番号 |
26770201
|
研究機関 | 成城大学 |
研究代表者 |
石井 康毅 成城大学, 社会イノベーション学部, 准教授 (70530103)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 句動詞 / コーパス / 教科書 |
研究実績の概要 |
1. データ整備 検定教科書については、中学校の教科書全点、高校のコミュニケーション英語I・IIの全点、英語表現I・IIのシェアが高いものの電子データを整備した。英語表現I・IIについては、多様なタイプの英文が含まれているため、技能別のタグを付けて電子化した。英英辞書の定義・用例テキストデータについては、既に過去の研究において整備済みであったが、Cambridgeの最新第4版のデータを新たに整備した。さらに、タガーによる処理の精度を上げるために必要な前処理を特定し、実際にスクリプトを作成した。 また、データからレマ・語形・品詞タグのパターンを利用した正規表現で句動詞候補を抽出・集計するが、その前提となるテキストデータの処理方法についても再検討した。品詞とレマの出力をするタガー・レマタイザー・パーザー、そしてレマと屈折形を対応づけるデータを精度と効率の観点から比較検討し、採用手法を定めた。実際に教科書データと学習者の作文データをタガーで処理し、well-formed XMLデータに変換するスクリプトも完成させた。 2. データ分析 データの分析については、XMLデータから句動詞候補を抽出し、その頻度を集計する手法を検討した。その上で、少数のデータ・項目によるパイロット調査を行った。品詞タグ付与の誤りやレマ・語形・品詞タグのパターンによる句動詞の特定自体に精度の限界もあるため、100%の抽出が不可能であるのは当然であるが、再現率(recall)よりも適合率(precision)を重視してパターンを見直すこととした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
データの整備、特に教科書データの整備に予想以上の時間がかかり、分析はパイロット調査の段階までしか行うことができなかった。 しかしながら、データの種類が違っても句動詞のパターン(作成済み)を利用して、テキストデータに対して集計を行うという手法は共通であるため、テキストデータのフォーマットの違いに対応する部分の微修正をするだけで、集計作業は一気に行うことができるため、この遅れは大きな問題にはならない。
|
今後の研究の推進方策 |
本年度より使用が開始された高等学校用のコミュニケーション英語IIIの検定教科書を入手し、テキストデータを整備する。また、Oxfordの辞書の最新版が発行されたため、このデータが利用可能であるかどうかを調査し、可能な場合にはこのデータを整備する。これでデータが全て揃うため、全てのコーパス・テキストデータを対象として、句動詞候補の項目と頻度を調査する。 最終的には、分析結果を統合し、他の言語資源データ(コーパス・語彙頻度データなど)も参照しながら、日本人英語学習者のための重要句動詞項目を特定し、教育に直接活用できる句動詞リストを作成することを目指す。この句動詞リストは学習者のモデル・インプット・アウトプットのデータを基にしながらも、母語話者の使用頻度と認知度が高い項目と、頻度に関わらず学習者が習得すべき項目を含むことから、教育上の配慮も反映したものとなるため、学習者のコミュニケーション力向上に資することが期待される。
|
次年度使用額が生じた理由 |
データ整備に時間がかかり、研究成果発表・情報収集のための学会出張ができなかったため。
|
次年度使用額の使用計画 |
今年度は研究成果発表・情報収集のための学会出張を予定している。
|