Creating an online accessible database of high-frequency phrases including collocations and chunks with their CEFR levels
Project/Area Number |
23K21949
|
Project/Area Number (Other) |
22H00677 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 02100:Foreign language education-related
|
Research Institution | Kyushu University |
Principal Investigator |
内田 諭 九州大学, 言語文化研究院, 准教授 (20589254)
|
Co-Investigator(Kenkyū-buntansha) |
荒瀬 由紀 東京工業大学, 情報理工学院, 教授 (00747165)
工藤 洋路 玉川大学, 文学部, 教授 (60509173)
石井 康毅 成城大学, 社会イノベーション学部, 教授 (70530103)
ハズウェル クリストファー 九州大学, 言語文化研究院, 准教授 (90536088)
Danny Minn 北九州市立大学, 基盤教育センター, 准教授 (60382412)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,900,000 (Direct Cost: ¥13,000,000、Indirect Cost: ¥3,900,000)
Fiscal Year 2026: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2025: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2024: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2022: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | コロケーション / フレーズ / チャンク / CEFR / 発信語彙 |
Outline of Research at the Start |
本研究は、コロケーション・チャンクを中心とした高頻度フレーズのCEFRレベル別のリストを作成し、公開することを目指す。日本の教育現場ではコロケーションに対する意識が低く、十分な指導が行われていない。また、日本人英語学習者に合ったレベル別のリストは存在しない。この問題点を解決するために、本研究では大規模コーパスや生成系AIなどを利用して日本人英語学習者に合ったレベル別のコロケーション・チャンクのリストを作成し、ライティング・スピーキング教育に有効な発信語彙の強化に資する教育資源を公開することを目標とする。
|
Outline of Annual Research Achievements |
本研究では、日本人英語学習者に特化したレベル別のコロケーション・チャンクリストを作成、公開することを目指す。コロケーション・チャンクの難易度は表面上の単語の難易度だけでは決まらない。特に英語と母語(日本語)のずれに起因する場合があり、日本の英語教育の向上に広く資するためには、母語の影響を考慮したリストの作成が不可欠である。また、対象となる単語を含む定形表現(チャンク)をリストアップすることは、英語学習者にとって有益であると考えられる。 初年度である本年度は、(1)チームメンバー間の情報交換、(2)既存の辞書等からのコロケーション・チャンクの収集、(3) フレーズを考慮したコロケーション抽出プログラムの基礎の作成を目標に研究を進めた。(1)について、オンラインでの打ち合わせやSlack、メール等を使って情報交換し、それぞれが持つ資源および専門知、役割の確認を行った。(2)について、フレーズ辞書の見出し語の一覧の取得と、English Vocabulary Profileに含まれるフレーズをリストアップし、分析のための基礎データを構築した。(3)について、PPDB(The Paraphrase Database)から抽出したフレーズに対して、チャンクであるかどうかのアノテーションを実施し、それを学習データとしてBERTによって分類器を作成した。これによりチャンク抽出の土台が完成したが、ChatGPTに代表される生成系AIの出現により、新たな研究手法が可能となった(大規模言語モデルからのチャンクの抽出)。しかしながら、その有効性関しては未知数のところが多く、検証は今後の課題である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」で報告した通り、当初の計画に従って研究が進んでいる。生成系AIの出現によって研究手法に変更がある可能性も考えられるが、これにより研究がさらに進む可能性も高く、肯定的な材料であると考えている。以上より、本プロジェクトは概ね順調であると評価することができる。
|
Strategy for Future Research Activity |
今後の研究の進め方について、新型コロナウイルスの影響も小さくなってきているため、対面での打ち合わせおよびシンポジウムを企画し、本研究のテーマに関して積極的な意見交換の場を持ちたいと考えている。また、学会・研究会等に参加し、成果の途中経過の報告や関連情報の収集に努める。前述の通り、生成系AIの出現によって研究手法に変更が生じる可能性があるが、言語学および英語教育学の動向を探りつつ、本プロジェクトで有効活用できる方向性を模索し、積極的に活用したいと考えている。
|
Report
(1 results)
Research Products
(12 results)