研究課題/領域番号 |
15K16792
|
研究機関 | 東京外国語大学 |
研究代表者 |
鳥越 慎太郎 東京外国語大学, 大学院総合国際学研究院, 研究員 (20743511)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 学習者コーパスに基づく語彙リスト / CEFRに基づく語彙リスト / ポルトガル語 / 語彙リスト / CEFR / 学習者コーパス / 教材コーパス |
研究実績の概要 |
本研究は学習者データに基づいた学習語彙目標リストを作成することを目的としている。本研究の研究動機は、日本国内ではポルトガル語教材作成に関する客観的指針がないことと、ネイティブスピーカー(NS)の言語使用ではなく目標習熟度における学習者の言語使用をモデルとすべきであるという学習者中心主義の考えにある。 平成27年度の主たる研究の成果として2つのポルトガル語学習者コーパス (Corpora de PLE、Corpus de PEAPL2) から一次的な語彙リストを作成した (研究目的2)。両コーパスでは各被験者の学習習熟度が欧州言語共通参照枠 (CEFR) に従って注釈されているため、頻出語彙を単純に頻度順に羅列したのではなく、カイ二乗検定など統計学的手法を用いて初級 (A1-A2レベル)、中級 (B1-B2)、上級 (C1-C2)のそれぞれの段階で特徴的な語彙を約500語ずつ算出した。このリストは学習語彙目標リストの原形となる。 また、国内で流通している教材のデータベース化も進め、現在14の教材をデータ化している(研究目的3)。教材データから語彙リストを得て学習者コーパス語彙リストと比較することで、教材の語彙面での実質目標習熟度と、学習者が習得すべき語彙と教材に収録されている語彙に隔たりがないかを検証することができる。 NSコーパスの語彙リスト(研究目的1)は作成済みであるが、データの整理に多大な時間がかかっているため、これらの直接的な比較には至れていない。これに代わり既製のものではあるが、『現代ポルトガル語参照コーパス』 (約3億語) から得られた語彙リスト・LMCPCを上記の学習者コーパスからの語彙リストと比較し、両者の差異を比較検討した(研究目的4)。結果、中上級学習目標語彙とNS頻出語彙との間に隔たりが確認され、学習目標語彙リストのデータソースをNSではなく学習者コーパスとしている学習者中心主義の考え方の妥当性を支持するものとなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究目的(1)NSコーパス語彙リスト作成:NSコーパスからの語彙リストは4コーパスから得られているが、各リストを比較するためデータを整理する必要がある。この作業に時間がかかっているため、統計的な同一性検定に着手できていない。このままのペースでは期限内に終了させることが難しいため、対象語彙を上位5000語程度に限定する予定である。 研究目的(2)学習者コーパス語彙リスト作成:学習者コーパスからの一次語彙リスト作成は完成している。この結果は日本ポルトガル・ブラジル学会にて発表した。ただし、もとのコーパスの大きさに起因する問題ではあるが、得られた語彙リストは参考とした先行研究のもの(English Vocabulary Profile, Capel 2010, 2012; CEFR-J Wordlist, 投野 2013) と比べると語彙数が少ない。 研究目的(3)教材コーパス語彙リスト作成:教材のデータベース化は現在14の教材をデータ化し、2つの教材をコーパス化(テキストデータ化と品詞タグ付け)している。2016年3月現在、追加で6教材のデータ化を予定している。データ化に時間がかかっており、コーパス化がやや遅れているため、本年度では語彙リストの作成には至っていない。 研究目的(4)語彙リスト間比較:当初の予定では、NSコーパスから得られた語彙リストと学習者コーパスから得られた語彙リストの比較検討は初年度では行わない予定であったが、LMCPC(約2万語)の上位5000語を用いてパイロット研究を行った。この結果はスペインコーパス言語学会にて発表した。
|
今後の研究の推進方策 |
今後着手すべき計画として、NSコーパスから得られた語彙リスト間の比較と統合、教材のコーパス化と語彙リストの構築、そして各語彙リストの比較が挙げられる。 NS語彙リストについては、各リストの統合に先立って、リスト間の同一性を統計学的手法を用いて検証する必要があるが、このためのデータ整理に多大な時間がかかることが見込まれる。そのため、語彙を上位5000語ほどに限定することを検討している。 教材データについても、データ化に時間がかかることが見込まれるが、得られる語彙リストはNSリストほど大規模ではないため、データ整理は比較的速やかに完了すると見込まれる。 最後に各語彙リストの比較に着手する。こちらも、約1500語の学習者語彙リストを基準に比較を行うため、データ整理は比較的速やかに行えるものと見込まれる。
|