• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction of a Tongan language corpus and examination of the role of minority language corpora in comprehensive linguistic research

Research Project

Project/Area Number 19H01260
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 02060:Linguistics-related
Research InstitutionSophia University

Principal Investigator

大塚 祐子  上智大学, 外国語学部, 教授 (30794474)

Co-Investigator(Kenkyū-buntansha) 小野 創  津田塾大学, 学芸学部, 教授 (90510561)
Project Period (FY) 2019-04-01 – 2024-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥11,180,000 (Direct Cost: ¥8,600,000、Indirect Cost: ¥2,580,000)
Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2021: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2020: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2019: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywordsトンガ語 / コーパス / 少数言語 / 言語維持 / ポリネシア諸語 / オーストロネシア諸語 / 言語保持 / 言語学 / コーパス言語学 / 危機・少数言語 / 心理言語学 / 統語論
Outline of Research at the Start

本研究はトンガ語のコーパス(約十万語からなるデータベース)を作成し、得られたデータを統語論や心理言語学の研究に活用することで、これまでコーパスがあまり活用されてこなかった分野においてコーパスの果たす役割を検証し、その効果的な活用を提案する。研究計画は、①コーパスの構築、②コーパスを使った専門分野での研究、③話しことばコーパス構築に向けた予備研究の三段階に分けられる。コーパスは少数言語の希少データを提供することで、今後の言語学領域の研究に広く役立つことは勿論、世界的な取り組みである少数言語の記録・保持活動の一例としての意義、共同作業を通じた現地協力機関に対する教育面での貢献が期待される。

Outline of Annual Research Achievements

業務委託先の外注業者の都合で遅延していたコーパス構築用のデータ入力のためのウェブインターフェイスの改修が完了し、これまでに蓄積したトンガ語のテキストデータ(約30万語)をファイルごとに一括入力できる状態になった。
ウェブ上で入力ができるようになるまでは、その後に予定されている作業(文レベルの英訳の付与、語レベルのアノテーションの付与)に取りかかることが不可能であるため、入力がより速く正確に進められるよう、トンガ語話者である協力者が作成したテキストファイル(約1000ファイル)の内容と原典との整合性の確認、特殊文字が変換用の表記(アクセントは母音の前に/、長母音は母音の前に_)に正しく置き換えられているかのチェックを行い、必要な修正を施した。また、作業の遅れを取り戻す方策として、入力作業をさらに効率よくするために、テキストファイルに文ごとの英訳を付与し、英訳も一緒に一括入力が可能な形に整えた。
2023年9月にはトンガ国立大学の教育芸術人文学部の英語専攻及びトンガ語専攻の学生と教員に向けて、トンガ語の書き言葉コーパスに関するワークショップを行い、プロジェクトの目的と意義を説明するとともに、実際にウェブページを見せながら英訳や品詞情報のアノテーション付与の具体的な方法を説明した。検索可能なトンガ語のデータベースへの関心は高く、積極的に作業に関わりたいと申し出る学生が多くいたため、今後、トンガ語の品詞分類に関する講義やアノテーション付与の仕方の実践的なワークショップを実施することが決まった。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

インターフェイスの改修を委託していた外注業者の都合により、改修が大幅に遅れたため、予定していた入力作業に取りかかることができなかったが、データ入力後に英訳をインターフェイス上で付与するという手続きから、テキストファイル自体に英訳を付与し一括入力する形に変更して、改修作業完了後の作業のスピードアップを図った。

Strategy for Future Research Activity

英訳を付与した上でデータベースに一括入力できるようになったので、テキストファイルに文ごとの英訳を付与する作業を進める一方で、英訳付与が完了したファイルから順に入力作業を同時進行で進める。品詞情報のアノテーション付与に関するワークショップを行い、入力済みデータについてウェブ上でアノテーションを付与する作業を順次進める。

Report

(4 results)
  • 2022 Annual Research Report
  • 2021 Annual Research Report
  • 2020 Annual Research Report
  • 2019 Annual Research Report
  • Research Products

    (1 results)

All 2023

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Linguists’ Contribution to Pukepuke Fonua: Tongan Language Corpus Projects2023

    • Author(s)
      Yuko Otsuka
    • Organizer
      the 19th Bi-Annual Tonga Research Association Conference Pukepuke Fonua 2023
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2019-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi