2013 Fiscal Year Annual Research Report
学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究
Project/Area Number |
24242017
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
投野 由紀夫 東京外国語大学, 大学院総合国際学研究院, 教授 (10211393)
|
Co-Investigator(Kenkyū-buntansha) |
根岸 雅史 東京外国語大学, 大学院総合国際学研究院, 教授 (50189362)
寺内 一 高千穂大学, 商学部, 教授 (50307146)
中谷 安男 法政大学, 経済学部, 教授 (90290626)
奥村 学 東京工業大学, 精密工学研究所, 教授 (60214079)
相川 真佐夫 京都外国語大学, 外国語学部, 准教授 (60290467)
能登原 祥之 同志社大学, 文学部, 准教授 (70300613)
石井 康毅 成城大学, 社会イノベーション学部, 准教授 (70530103)
金子 恵美子 会津大学, コンピュータ理工学部, 准教授 (30533624)
大羽 良 中央大学, 経済学部, 准教授 (10308158)
和泉 絵美 同志社大学, 全学共通教養教育センター, 助教 (80450691)
内田 諭 東京外国語大学, 世界言語社会教育センター, 講師 (20589254)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | CEFR レベル別基準特性 / 学習者コーパス / 学習者プロファイリング / 言語テスト / 外国語能力到達度評価 / 機械学習 |
Research Abstract |
平成24年3月に公開した CEFR-J に準拠した参照レベル記述(レベルごとの言語項目を選定する作業)を行うために、2年目に以下の2種類のコーパス・データを整備した。 1)CEFR レベル別学習者コーパスの整備:JEFLL Corpus(日本人中高生1万人の英作文データ)、NICT JLE Corpus (日本人英語学習者1200人の会話コーパス)の2つのコーパスをCEFRレベルに再分類した。 2)CEFR レベル別教材コーパスの整備:特に欧州で使用されている英語教材を収集し、CEFRレベル別・技能別にコーパス化。テキスト選定とPDF・テキスト化、かつコーパス・マークアップ(構造化)の基準を定め,XML正形式化を行った。 公開会議を4回実施。9月には中間報告の国際シンポジウムを会津大学で開催し,Batia Laufer教授(Haifa 大学),Paula Battery 博士(Cambridge大学)を招いて,我々のプロジェクトの中間発表を行い,講評および討論を行った。 さらに,コーパス・データから CEFR レベル別の基準特性を抽出するさまざまな方法に関しても1年間を通じてさまざまな方法論の検討を行った。特に単純な分類木から複雑なアンサンブル学習のようなものまでを検討し,複数の機械学習の手法を比較評価するなどの実験も行っている。これらの結果も国際的なコーパス言語学の学会や言語テスト学会などで発表を行った。CEFR-J の website は http://www.cefr-j.org で公開しており、会議の配布資料などもダウンロードできるように整備している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コーパス整備は最初の計画では前半で終了予定であり,ほぼ順調に構築が行われ,今年度からデータ分析の段階に移行できるので,予定通りである。 機械学習の手法に関しては東工大を中心に検討を加えてもらっており,データ処理の分業体制もほぼ昨年度末の会議で決まっており,順調である。
|
Strategy for Future Research Activity |
今後2年間では,収集したコーパスを用いて,インプットとアウトプットの両面から,CEFRレベルを特定する基準特性の抽出に関して取り組む。特に大規模な文法事項のリストを作りそのすべてに関して抽出式を書いて量的に取り出す手法と,特定の文法事項に関して定点チェックをする手法と,両面から言語特徴のカウントを行う。 学習者データに関しては,エラー項目が非常に困難を伴う。東工大でエラー自動判定の精度の高い項目に関しては,自動エラーアノテーションを行い,それからレベル別エラー特徴を抽出する試みを試してみる。 以上のような複合的なアプローチで観察するべき言語特徴を取り出せた後は,統計的な手法でレベル判別に役立つ予測変数を特定し,それらを機械学習的には使って判別精度を評価,その使用した言語特徴を特徴変数としてインベントリー化する予定。
|
Research Products
(56 results)