2021 Fiscal Year Annual Research Report
Construction of a Tongan language corpus and examination of the role of minority language corpora in comprehensive linguistic research
Project/Area Number |
19H01260
|
Research Institution | Sophia University |
Principal Investigator |
大塚 祐子 上智大学, 外国語学部, 教授 (30794474)
|
Co-Investigator(Kenkyū-buntansha) |
小野 創 津田塾大学, 学芸学部, 教授 (90510561)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | トンガ語 / オーストロネシア諸語 / コーパス / 言語維持 |
Outline of Annual Research Achievements |
令和3年度は、前年度末に開始したテキストデータの収集及び電子ファイル化をさらに進め、異なるソース(教会のニューズレター、政府の広報)から合わせて17万語相当のテキストデータの電子化を完了した。この作業はトンガ語母語話者が担当し、出典元の表記にタイプミスがないか、特ににGlottal stop、長母音、定性アクセントの表記が抜け落ちている箇所がないかを中心にチェックし、必要な箇所に訂正を施した上で、これらのトンガ語表記をテキストファイル用の表記(アンダースコア、スラッシュ)に変換するという流れで進めた。 続いて、完成した電子データと出典元との内容を照合してダブルチェックを行い、重複したファイルがないか、特殊文字の表記が正しいかを確認しつつ、入力作業に向けてファイルの最終調整を行った。 前年度までに予定されていた作業に遅れが出ていたため、データ入力に用いるウェブインターフェイスの機能について、より効率的に入力が進められるよう、当初計画していた一文ずつの入力ではなく、ファイルごとの一括入力ができるように変更した。しかしながら、この変更を含んだウェブインターフェイスの納期が開発請負者の都合により遅れたため、令和4年1月までに開始する予定であった入力作業を開始するには至らなかった。 一方で、インターフェイスの検索機能に関する検討を重ね、検索結果で前後の文脈がわかるような表示がされるようするなど、検索結果から出典元のデータを閲覧できるようにする等、より効率的にコーパスを利用するために必要な要件をまとめた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
インターフェイス開発請負者の事情で納期が遅れ、入力作業の開始が遅れてたため。
|
Strategy for Future Research Activity |
インターフェイスの機能追加が完了次第、電子ファイルの一括入力でデータベースを構築し、トンガ語話者による文レベルの英訳を付与する作業を実施する。トンガへの渡航が可能となったので、現地で協力者を複数採用し、語レベルのアノテーション付与作業にとりかかる。
|