2012 Fiscal Year Annual Research Report
学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究
Project/Area Number |
24242017
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
投野 由紀夫 東京外国語大学, 大学院総合国際学研究院, 教授 (10211393)
|
Co-Investigator(Kenkyū-buntansha) |
根岸 雅史 東京外国語大学, 大学院総合国際学研究院, 教授 (50189362)
寺内 一 高千穂大学, 商学部, 教授 (50307146)
中谷 安男 法政大学, 経済学部, 教授 (90290626)
相川 真佐夫 京都外国語大学, 外国語学部, 准教授 (60290467)
能登原 祥之 同志社大学, 文学部, 准教授 (70300613)
石井 康毅 成城大学, 公私立大学の部局等, 准教授 (70530103)
金子 恵美子 会津大学, コンピュータ理工学部, 准教授 (30533624)
大羽 良 中央大学, 経済学部, 准教授 (10308158)
内田 諭 東京外国語大学, 世界言語社会教育センター, 講師 (20589254)
和泉 絵美 京都外国語大学, 外国語学部, その他 (80450691)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 英語到達度指標 / CEFR / 学習者コーパス / コーパス言語学 / 第二言語習得 |
Research Abstract |
平成24年3月に公開した CEFR-J に準拠した参照レベル記述(レベルごとの言語項目を選定する作業)を行うために、以下の2種類のコーパス・データを整備した。 1 CEFR レベル別学習者コーパスの整備:JEFLL Corpus(日本人中高生1万人の英作文データ)、NICT JLE Corpus (日本人英語学習者1200人の会話コーパス)の2つのコーパスをCEFRレベルに再分類する。 2 CEFR レベル別教材コーパスの整備:特に欧州で使用されている英語教材を収集し、CEFRレベル別・技能別にコーパス化を開始。 1に関しては、年度内でほぼ CEFR レベル別のサブコーパス作成を終えた。2に関しては、テキストの選定とPDF・テキスト化を中心に行い、かつコーパスデータ整理の際のマークアップ(構造化)の基準を定めた。電子化自体の作業は次年度にかけて継続中である。さらに公開会議を3回実施。「CEFR の概略」、「CEFRレベルのテキスト分類の可能性」、および「分類テキスト特徴の抽出と機会学習について」について講師の講演および研究メンバーの進捗状況の報告を行った。CEFR-J の website は http://www.cefr-j.org で公開しており、会議の配布資料などもダウンロードできるように整備している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初想定していたコーパス・データ整備が1年目の最大の目標であったが、学習者データおよび教材データの研究メンバーによる分担も組織的に行われ、学習者コーパスの方は1万件の英作文データの CEFR レベルによる再分類を2名の専門的レーターにより行うことができた。また学習者会話コーパスの方も元データであった Standard Speaking Test の試験官に加わってもらって、SST レベルの CEFR とのアラインメントを行うことができた。 教材コーパスに関しては、主要 ELT 出版社の選定とテキストの選定が行われ、かなりの期間がデータの PDF/OCR 処理に費やされている。まだメタデータの管理を含めた構造化文書の定義を行ってサンプルデータを作った段階であるが、これは当初から難航が予想されたので平成25年度にかけて完成を目指している。 全体としては3回の公開会議も開き、予定通りに進展している。
|
Strategy for Future Research Activity |
平成25年度は2種類のコーパス・データを概ね整備が終えられる予定である。よって、研究チームは、英語能力指標の CEFR レベル(A1~B2を対象)を判定するのに役立つと思われる言語特徴の抽出という課題に取り組む。 すでに先行研究では Core Inventory, English Profile などの欧州での事例があるが、日本人英語学習者のデータは学習指導要領に規定された教科書やシラバスを元にしているため、独自の発達を示す可能性がある。日本の中学・高校で導入される主要文法事項の網羅的リストを作り、その頻度抽出を行うことを1つの柱とし、それ以外にどのような語彙・文法・意味・機能などの特徴がレベル判定やレベルを規定する特徴として有効か、仮説を提示し、それをコーパスからの特徴抽出およびレベル別テキストの判別特徴の統計的機械学習を利用した手法で解明を試みる。2年目にコーパスを完成させ、特徴抽出の予備調査を行い、3年目で本格的な抽出と評価、4年目ではそれらの一覧をもとにしたインベントリー作成と CEFR-J へのマッチングを行うことを目標とする。
|
Research Products
(97 results)