2014 Fiscal Year Annual Research Report
学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究
Project/Area Number |
24242017
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
投野 由紀夫 東京外国語大学, 大学院総合国際学研究院, 教授 (10211393)
|
Co-Investigator(Kenkyū-buntansha) |
根岸 雅史 東京外国語大学, 大学院総合国際学研究院, 教授 (50189362)
寺内 一 高千穂大学, 商学部, 教授 (50307146)
中谷 安男 法政大学, 経済学部, 教授 (90290626)
奥村 学 東京工業大学, 精密工学研究所, 教授 (60214079)
相川 真佐夫 京都外国語大学, 外国語学部, 教授 (60290467)
能登原 祥之 同志社大学, 文学部, 准教授 (70300613)
石井 康毅 成城大学, 社会イノベーション学部, 准教授 (70530103)
金子 恵美子 会津大学, コンピュータ理工学部, 准教授 (30533624)
和泉 絵美 同志社大学, 全学共通教養教育センター, 准教授 (80450691)
内田 諭 九州大学, 言語文化研究科(研究院), 准教授 (20589254)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | CEFRレベル別基準特性 / 学習者コーパス / 学習者プロファイリング / 言語テスト / 外国語能力到達度評価 / 機械学習 |
Outline of Annual Research Achievements |
今年度は CEFRレベル別の基準特性を抽出するために,インプットにあたる欧州で使用されているコースブックのコーパスとアウトプットにあたる学習者の英作文・英会話の2種類の学習者コーパスの整備がほぼ完了し,そこからさまざまな言語特徴を抽出することを試みた。 言語特徴は大別すると,文法特性とテキスト特性の2種類に分け,文法特性に関しては中学・高校で扱う英文法項目をリスト化し,それらに関する抽出式を東京外国語大学佐野研究室で作成した抽出式を改変して作成した。またテキスト特性に関しては,語彙プロファイル(BNC20000語リストなどを利用),語彙密度,語彙多様性,流暢性,複雑性などの指標を多変量で抽出した。これらをもとに,多変量解析を行い,CEFRレベルを判別する有効な特徴を抽出する方法として,サポートベクターマシン,決定木,ランダムフォレストなどのアンサンブル学習を比較してその判別制度などを比べると同時に,使用特徴の重みづけスコアなどを参考に,基準特性として有効に機能する言語特徴群を特定するということを試みた。 さらに,個別研究では各分担者が個別の言語特徴で有効に基準特性として利用できそうなものをよりマクロな分析を行ってその中間結果を報告した。それにはテキスト構造,メタ談話マーカー,語用論的能力に関するもの,関係節を含む名詞句内部構造,などが含まれる。 最終年度は文法事項の検索式を精度を上げて,これらの最終的なデータだしを行い,特徴群の統計データをすべて公開する予定である。さらに,CEFR-J の活用レベルに応じたインベントリーの提案を行い,広く利用に供したい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コーパス構築も最初の2年でほぼ終わり,今年度はデータ分析をテスト的に繰り返しながら,課題をつぶしてきた。その意味で最終年度に本格的なデータ出しを行えるように順調にコーパス整備が行われてきたといえる。 また統計手法に関する比較も複数行ってきたので,最終年度には東工大チームに委託して,どのような機械学習の手法が最も効果的かを判断してもらう予定。こちらもほぼ予定通りに進んでいる。
|
Strategy for Future Research Activity |
2015年度は最終年度になるので,整備してきたインプット&アウトプット・コーパスからさまざまな言語特徴抽出を試み,それらによる CEFR-J レベル別インベントリーの作成までこぎつけたい。 大別すると,文法特性による CEFR-J Grammar Profile, テキスト特性による CEFR-J Text Profile の2種類のインベントリーを構築。これによる包括的な CEFR-J レベル別文法・語彙体系を作りたい。それを教科書作成,教材開発,言語テストなどの基礎材料として公開する。 研究者向けには詳細な統計データを付けたデータベース形式で,その後のさまざまな分析を多面的に行えるようなデータとして公開する。教科書会社,教材開発会社にはよりわかりやすい CEFR-J レベルごとの文法項目一式のリストを可能であれば実際の例文などと一緒に提示したい。教員用にはタスク開発に便利なように,CEFR-J の CAN-DO とリンクできる語彙・文法項目の整理をできるだけ行ったタスク開発キットのようなものを提案できればと考えている。
|
Research Products
(54 results)