2023 Fiscal Year Annual Research Report
Acceptability corpus development for investigating the difficulty of grammar acquisition in Malay/Indonesian
Project/Area Number |
23H00639
|
Allocation Type | Single-year Grants |
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
野元 裕樹 東京外国語大学, 大学院総合国際学研究院, 准教授 (10589245)
|
Co-Investigator(Kenkyū-buntansha) |
降幡 正志 東京外国語大学, 大学院総合国際学研究院, 教授 (40323729)
塩原 朝子 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (30313274)
稲垣 和也 南山大学, 外国語学部, 教授 (50559648)
SRI BUDILESTARI 立命館アジア太平洋大学, 言語教育センター, 講師 (80833342)
MOELJADI David 神田外語大学, 外国語学部, 講師 (60928290)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Keywords | 容認性コーパス / 文法習得 / 難易度 / マレー語 / インドネシア語 |
Outline of Annual Research Achievements |
本研究はマレー・インドネシア語を対象とした容認性コーパス(corpus of linguistic acceptability)を開発し、それを用いて主要文法現象について、学習者にとっての難易度を明らかにする。容認性コーパスとは、主要文法現象の例文をその容認性とともに言語学の教科書などから収集し、整理したコーパスである。 初年度である本年度はメンバー全体で容認性コーパスおよびその研究開発の動向について理解を共有することと開発する容認性コーパスの大枠の設計をすることを目標として研究活動を行った。研究会を対面とオンラインで3回開催した。 第1回研究会では、コーパスに含める容認性付き例文を収集する元となる文献について全員で確認した。また、メンバーが他の科研課題で取り組んだ/取り組んでいるインドネシア語教育関連の研究について情報共有を行った。それにより、マレー・インドネシア語教育関連研究の中での本研究の位置付けが明確になった。 第2回研究会では、実際に収集し始めた例文を全員で検討した。研究会の中で検討できた例文は僅かだったものの、例文を入力するスプレッドシートの構成を確定することができたほか、例文を文法現象のカテゴリーに分類する際に生じる諸問題(対象となる文法現象の正確な把握、既存研究で使用されているカテゴリーへの分類の難しさ)や文献から収集するだけでは得られなそうな文法現象について把握することができた。また、3~4年目に母語話者と学習者に容認性調査を行う際の方法についても全体で議論した。この研究会ではメンバーが参加した多読学会の報告もあった。 第3回研究会では、引き続き例文の検討を進めたのに加え、Singapore AIのグループが2023年9月にarXivに発表した、本研究課題が開発予定のコーパスと類似のデータセットLINDSEAについて情報共有を行い、それとの差別化の方法を議論した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の目標である、メンバー全体で容認性コーパスおよびその研究開発の動向について理解を共有することと開発する容認性コーパスの大枠の設計をすることの両方が十分に達成できた。
|
Strategy for Future Research Activity |
Singapore AIのグループが類似の言語資源を開発し、すでに公開していることが判明したため、容認性コーパスの開発スピードを速める必要がある。 翌年度第1回研究会までに文献からの例文収集を完全に終える。研究代表者と研究補佐が中心となり、例文を文法現象のカテゴリーに分類する。メンバーで分担して例文・カテゴリーの問題点を洗い出し、研究会で議論し、最終的な例文とそのカテゴリーを確定する。 第2回研究会では、文献から収集した例文には含まれていない文法現象を洗い出し、例文を作例する。母語話者のメンバー・研究補佐が容認性を判断することで新たにデータを構築する。 第3回研究会までに、マレー語、インドネシア語両方のデータが揃うようにし(インドネシア語からマレー語、マレー語からインドネシア語の翻訳を行う)、研究会でデータの全体を最終確認する。その後、研究代表者のgithubからその段階での容認性コーパスを「試行版」として公開する。
|
-
-
-
-
-
-
-
-
[Journal Article] NusaX: Multilingual parallel sentiment dataset for 10 Indonesian local languages2023
Author(s)
Genta Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Pascale Fung, Timothy Baldwin, Jey Han Lau, Rico Sennrich, Sebastian Ruder
-
Journal Title
Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics
Volume: 1
Pages: 815-834
DOI
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-