2019 Fiscal Year Annual Research Report
Construction of a Tongan language corpus and examination of the role of minority language corpora in comprehensive linguistic research
Project/Area Number |
19H01260
|
Research Institution | Sophia University |
Principal Investigator |
大塚 祐子 上智大学, 外国語学部, 教授 (30794474)
|
Co-Investigator(Kenkyū-buntansha) |
小野 創 津田塾大学, 学芸学部, 准教授 (90510561)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | トンガ語 / オーストロネシア諸語 / コーパス / 言語保持 |
Outline of Annual Research Achievements |
初年度は構築するコーパスの内容と形式の見直しとトンガ語の母語話者によるデータ入力をよりユーザーフレンドリーなものとするためのインターフェイスの開発に取り組んだ。当初予定していたUniversal Dependenciesのフォーマットは専門知識のない母語話者に行ってもらうには複雑すぎるため、入力作業の簡素化の必要性が認識された。同時に、Treebankに関心のある研究者のみならず、幅広い層に役立つ情報を提供するのに望ましい形とは何かを議論した結果、独自にウェブベースのコーパスシステムを開発することが決まり、プロトタイプの作成と動作確認を行った。 ウェブサイトにログインすると、文の入力、出典情報の入力、文レベルの英訳、語レベルの英訳(グロス)、品詞の入力が直接打ち込める形になっていて、変換コードのようなものを学習する必要なくデータ入力が行えるので、入力作業の研修にかける時間が格段に短縮できることになった。今後はテキストデータをまとめてアップロードし複数のエントリーを作成する機能を加える。アップロードをスムーズに機能させるよう、テキストデータ作成時のルールも整備し、トンガ語独特の表記(マクロン及びアクセント)にも対応できるようにした。 このシステムは検索機能も備え、プロトタイプの段階ではトンガ語あるいはグロスによる検索が可能であることが確認できた。本研究の目的にかなったシステムが構築できたことで、今後の作業がスムーズに進むことが期待されるのみならず、このシステムはトンガ語以外にも活用することが十分に可能なので、将来的に他の少数言語のコーパス構築に幅広く活用してもらえることも期待される。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定していたテキストデータの作成にはまだ取りかかれていないものの、入力作業の簡略化が達成できたので、今後の作業には大きな問題は想定されず、予定より早いペースで進められることが期待できる。
|
Strategy for Future Research Activity |
次年度は、まず、テキストデータをまとめてアップロードできる機能をシステムに加え、入力作業が開始できる環境を整える。同時に、サンプルのテキストデータ化を進め、順次、入力作業にとりかかり、全体の半分にあたる約5万語分のテキストの入力と文レベルの英訳を完了させることを当面の到達目標とする。一方で、語レベルのグロスや品詞などのアノテーションに関するルールを整備してマニュアル化し、次段階への準備を整える。また、コーパスの研究活用度の向上に向け、検索機能の充実を図る。
|