2022 Fiscal Year Annual Research Report
Construction of a Tongan language corpus and examination of the role of minority language corpora in comprehensive linguistic research
Project/Area Number |
19H01260
|
Research Institution | Sophia University |
Principal Investigator |
大塚 祐子 上智大学, 外国語学部, 教授 (30794474)
|
Co-Investigator(Kenkyū-buntansha) |
小野 創 津田塾大学, 学芸学部, 教授 (90510561)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | トンガ語 / コーパス / 少数言語 / 言語維持 / ポリネシア諸語 |
Outline of Annual Research Achievements |
業務委託先の外注業者の都合で遅延していたコーパス構築用のデータ入力のためのウェブインターフェイスの改修が完了し、これまでに蓄積したトンガ語のテキストデータ(約30万語)をファイルごとに一括入力できる状態になった。 ウェブ上で入力ができるようになるまでは、その後に予定されている作業(文レベルの英訳の付与、語レベルのアノテーションの付与)に取りかかることが不可能であるため、入力がより速く正確に進められるよう、トンガ語話者である協力者が作成したテキストファイル(約1000ファイル)の内容と原典との整合性の確認、特殊文字が変換用の表記(アクセントは母音の前に/、長母音は母音の前に_)に正しく置き換えられているかのチェックを行い、必要な修正を施した。また、作業の遅れを取り戻す方策として、入力作業をさらに効率よくするために、テキストファイルに文ごとの英訳を付与し、英訳も一緒に一括入力が可能な形に整えた。 2023年9月にはトンガ国立大学の教育芸術人文学部の英語専攻及びトンガ語専攻の学生と教員に向けて、トンガ語の書き言葉コーパスに関するワークショップを行い、プロジェクトの目的と意義を説明するとともに、実際にウェブページを見せながら英訳や品詞情報のアノテーション付与の具体的な方法を説明した。検索可能なトンガ語のデータベースへの関心は高く、積極的に作業に関わりたいと申し出る学生が多くいたため、今後、トンガ語の品詞分類に関する講義やアノテーション付与の仕方の実践的なワークショップを実施することが決まった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
インターフェイスの改修を委託していた外注業者の都合により、改修が大幅に遅れたため、予定していた入力作業に取りかかることができなかったが、データ入力後に英訳をインターフェイス上で付与するという手続きから、テキストファイル自体に英訳を付与し一括入力する形に変更して、改修作業完了後の作業のスピードアップを図った。
|
Strategy for Future Research Activity |
英訳を付与した上でデータベースに一括入力できるようになったので、テキストファイルに文ごとの英訳を付与する作業を進める一方で、英訳付与が完了したファイルから順に入力作業を同時進行で進める。品詞情報のアノテーション付与に関するワークショップを行い、入力済みデータについてウェブ上でアノテーションを付与する作業を順次進める。
|
Research Products
(1 results)