2020 Fiscal Year Annual Research Report
Construction of a Tongan language corpus and examination of the role of minority language corpora in comprehensive linguistic research
Project/Area Number |
19H01260
|
Research Institution | Sophia University |
Principal Investigator |
大塚 祐子 上智大学, 外国語学部, 教授 (30794474)
|
Co-Investigator(Kenkyū-buntansha) |
小野 創 津田塾大学, 学芸学部, 准教授 (90510561)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | トンガ語 / オーストロネシア諸語 / コーパス / 言語維持 |
Outline of Annual Research Achievements |
本研究は、トンガ語(オーストロネシア諸語)の書きことばコーパスを構築し、得られたデータを分析し、従来の手法に基づいて立てられた統語論や心理言語学の仮説に対するコーパスデータを用いた実証的な検証を通じて、これらの分野におけるコーパスの果たす役割を考察することを目的とする。令和2年度は、コーパス構築のためのサンプルテキストの収集、データの電子化を進め、トンガでのフィールドワークを実施し、データ入力作業を依頼する現地協力者の採用、研修を経て入力作業を開始する予定であった。しかしながら、コロナウイルス感染症の世界的拡大を受け、所属機関の方針により海外渡航が禁止されたため、これらの計画の実行が不可能となった。 このため、急遽、日本国内に在住するトンガ語話者の協力者を探し、サンプルテキストの収集と、それらをウェブインターフェイスを用いて入力できるようにするために電子化する作業を令和3年1月より開始するに至った。令和2年度に処理したデータは、トンガのニュース月刊誌Matangi Tongaに寄せられた読者からの投書で、それぞれ250語程度をデータとして使用する許可を編集長から得た上で取りかかった。トンガ語表記に用いられる特殊文字(長母音を示すマクロとアクセント記号)をテキストファイルでどう表記するかをインターフェイス開発者と検討し、それぞれ該当する母音の前にアンダースコア_とスラッシュ/を用いることとした。出典のトンガ語表記をテキストファイル表記に変換する作業も含め、年度末までに約15,000語相当のテキストの電子ファイル化が完了した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コロナ禍で計画変更が余儀なくされたため、予定していたデータ収集、電子化、入力の一連の作業の開始が大幅に遅れたため。また、国内でトンガ語話者の協力者を複数確保することは困難なため一名により作業となり、作業の速度も限られるため。
|
Strategy for Future Research Activity |
テキストデータの作成に時間がかかることから、①作成した電子ファイルを一括入力できる機能、②特殊文字の変換ミスがあった場合に手動で変更が施せるようにするための特殊文字入力ボタンをウェブインターフェイスに追加して入力作業の効率化を図る。 一方で、ジャンルの異なる出版物(教会関係、政府広報)から10万語分のテキストデータの収集、電子化の作業を進める。
|