2022 Fiscal Year Annual Research Report
Creating an online accessible database of high-frequency phrases including collocations and chunks with their CEFR levels
Project/Area Number |
22H00677
|
Allocation Type | Single-year Grants |
Research Institution | Kyushu University |
Principal Investigator |
内田 諭 九州大学, 言語文化研究院, 准教授 (20589254)
|
Co-Investigator(Kenkyū-buntansha) |
荒瀬 由紀 大阪大学, 大学院情報科学研究科, 准教授 (00747165)
工藤 洋路 玉川大学, 文学部, 教授 (60509173)
石井 康毅 成城大学, 社会イノベーション学部, 教授 (70530103)
Danny Minn 北九州市立大学, 基盤教育センター, 准教授 (60382412)
ハズウェル クリストファー 九州大学, 言語文化研究院, 准教授 (90536088)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Keywords | コロケーション / フレーズ / チャンク / CEFR / 発信語彙 |
Outline of Annual Research Achievements |
本研究では、日本人英語学習者に特化したレベル別のコロケーション・チャンクリストを作成、公開することを目指す。コロケーション・チャンクの難易度は表面上の単語の難易度だけでは決まらない。特に英語と母語(日本語)のずれに起因する場合があり、日本の英語教育の向上に広く資するためには、母語の影響を考慮したリストの作成が不可欠である。また、対象となる単語を含む定形表現(チャンク)をリストアップすることは、英語学習者にとって有益であると考えられる。 初年度である本年度は、(1)チームメンバー間の情報交換、(2)既存の辞書等からのコロケーション・チャンクの収集、(3) フレーズを考慮したコロケーション抽出プログラムの基礎の作成を目標に研究を進めた。(1)について、オンラインでの打ち合わせやSlack、メール等を使って情報交換し、それぞれが持つ資源および専門知、役割の確認を行った。(2)について、フレーズ辞書の見出し語の一覧の取得と、English Vocabulary Profileに含まれるフレーズをリストアップし、分析のための基礎データを構築した。(3)について、PPDB(The Paraphrase Database)から抽出したフレーズに対して、チャンクであるかどうかのアノテーションを実施し、それを学習データとしてBERTによって分類器を作成した。これによりチャンク抽出の土台が完成したが、ChatGPTに代表される生成系AIの出現により、新たな研究手法が可能となった(大規模言語モデルからのチャンクの抽出)。しかしながら、その有効性関しては未知数のところが多く、検証は今後の課題である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」で報告した通り、当初の計画に従って研究が進んでいる。生成系AIの出現によって研究手法に変更がある可能性も考えられるが、これにより研究がさらに進む可能性も高く、肯定的な材料であると考えている。以上より、本プロジェクトは概ね順調であると評価することができる。
|
Strategy for Future Research Activity |
今後の研究の進め方について、新型コロナウイルスの影響も小さくなってきているため、対面での打ち合わせおよびシンポジウムを企画し、本研究のテーマに関して積極的な意見交換の場を持ちたいと考えている。また、学会・研究会等に参加し、成果の途中経過の報告や関連情報の収集に努める。前述の通り、生成系AIの出現によって研究手法に変更が生じる可能性があるが、言語学および英語教育学の動向を探りつつ、本プロジェクトで有効活用できる方向性を模索し、積極的に活用したいと考えている。
|