2018 Fiscal Year Research-status Report
Creating a corpus based educational word list for learners of Japanese - 6000 words for reading -
Project/Area Number |
18K00708
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
本田 ゆかり 東京外国語大学, 大学院総合国際学研究院, 研究員 (00817413)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 日本語教科書共通語彙調査 / 語彙リスト / コーパス / 語彙レベルチェックツール |
Outline of Annual Research Achievements |
2018年度は,初級日本語教科書共通語彙調査と,語彙リストの公開に向けたWebツールの整備を主に行った。 初級日本語教科書の共通語彙調査は,本研究の課題である「読解語彙6000語」の選定において,初級レベルの語彙の精緻化を行う際の資料とする。調査は,主要な初級総合教科書から5種類を対象とした。この調査に関しては,日本語教育方法研究会第52回研究会で発表を行った。 本研究はこれまで1万語の語彙リスト(以下,「読解基本語彙1万語」)を開発しており,「読解語彙6000語」は,この1万語を精緻化する方法で作成する計画である。「読解基本語彙1万語」は,現代日本語書き言葉均衡コーパス(国立国語研究所2011)をコーパス・データとし,語彙の出現頻度と分布統計を主軸とした手法で選定した。語彙のレベルは5段階に分けている。2018年度は,本研究の一部を成すこの語彙リストの作成方法とテキストカバー率調査による評価について論文にまとめた。これは,『日本語教育』172号(日本語教育学会2019)に掲載された。 語彙リストの公開やWebツール利用に関する準備も進めている。川村よし子教授との共同研究で,「読解基本語彙1万語」の語彙リストを実装した語彙のレベルチェックツールを開発し,Web上に公開した(http://yukari.overworks.jp/)。これは,日本語のテキストをコピー&ペーストしてボタンを押すと,そのテキストに含まれる語彙がレベル別にリスト化されるという仕組みのもので,今後は,これに上記の初級日本語教科書共通語彙リストや,「読解語彙6000語」も実装していく計画である。 また,「読解語彙6000語」の開発にあたり,コーパス・サンプリングによって語彙の出現頻度ランクや分布にどの程度違いが出るのかを調査している。このため,現在,1億語規模のコーパスを複数作成する作業を行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究は,現在,研究計画とは異なる順序で進められている部分がある。研究開始当初は,まず,「コーパス出現頻度6000語水準における閾値の検証」を行い,初級日本語教科書共通語彙調査等を資料とした6000語の精緻化,完成した語彙リストの評価としてのテキストカバー率調査,既存の語彙リストとの一致率調査,語彙リスト公開に向けたWebサイト等の整備,という順で進める予定であった。しかし,事情により,2018年度は共通語彙調査と語彙リスト公開に向けたWebツールの開発を先に行った。そのため,「コーパス出現頻度6000語水準における閾値の検証」に関わる作業の開始が遅れた。 本研究では,1億語規模のコーパスを複数作成し,異なるコーパス間の出現語彙頻度ランクの移動を調査,分析することを課題の一部としている。これまでの研究で,現代日本語書き言葉均衡コーパス(国立国語研究所2011,以下,BCCWJ)を利用して,出現頻度が高く,サブコーパス間の分布統計が安定した語彙を1万語選定した。その分析の過程において,コーパスの語彙の出現頻度ランク上位6000語の水準に閾値があり,それ以降の頻度や分布統計の値が極端に低下する傾向が見られた。本研究では,この傾向についてより詳しく知るため,BCCWJと同規模である1億語のコーパスを複数作成し,コーパス・サンプリングが異なる際にも同様の傾向が把握できるのか,調査,分析を行う計画である。コーパス作成にはSketchengine(https://www.sketchengine.eu/)を利用しているが,この作業に,予想以上に時間がかかっている。
|
Strategy for Future Research Activity |
1)「コーパス出現頻度6000語水準における閾値の検証」を進めるため,1億語規模のコーパスを複数作成する。Sketchengineを使った作業に時間がかかるため,今後は使用するコンピューターの台数を増やすか,新聞記事など既存のデータベースも利用してコーパスの作成を急ぐ計画である。 2)1)の分析結果や,2018年度に行った初級教科書共通語彙調査の結果を踏まえ,6000語の選定作業を進め,語彙リストを完成させる。 3)完成した語彙リストを評価するため,テキストカバー率調査を行う。テキストカバー率調査では,これまでの研究で作成した「読解基本語彙1万語」や,『日本語能力試験出題基準』語彙リストとの比較を行う。 4)「読解語彙6000語」の評価のため,既存の語彙リストと語彙の一致率調査を行う。これによって本語彙リストの特色も示す。 5)「読解語彙6000語」を実装したWebツールの開発を行う。「読解基本語彙1万語」を実装したWebツールは既に公開されており,この研究に関しては,日本語教育学会2019年度春季大会で発表を予定している。
|
Causes of Carryover |
研究課題を進める手順に変更があり,コーパス作成作業が後回しになったため,コーパス作成に利用するWebツール(Sketchengine:https://www.sketchengine.eu/)の使用料金が,次年度へ繰り越しとなった。
|
Research Products
(3 results)