• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

A corpus-based diachronic and synchronic comparative study of Hindi-Urdu relative constructions

Research Project

Project/Area Number 23K00523
Research InstitutionOsaka University

Principal Investigator

西岡 美樹  大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (30452478)

Project Period (FY) 2023-04-01 – 2026-03-31
Keywordsボージプリー語 / ヒンディー語 / ウルドゥー語 / ヒンドゥスターニー語 / 関係詞構文 / コーパス
Outline of Annual Research Achievements

初年度となる2023年度は、まず19世紀のヒンドゥスターニー語(ウルドゥー語)のコーパスを作成するため、Dr. A. Desoulieres(INALCO)とDr. M. Nawaz(COMSATS University Islamabad)の協力を得て、オンラインで入手可能なIkhlaq-e-HindのPDFとOCRでスキャンされたフルテキストのデータについて吟味した。その結果、ウルドゥー語のOCRの読み取り精度に問題があり、手動による修正箇所が予想以上に多いことが判明した。さらにウルドゥー語もヒンディー語のいずれも、古書にしばしば見られる旧い綴り方や旧い文字等の問題を解決する必要が生じた。そのため、予定を変更し、初年度に現代ボージプリー語と19世紀末~20世紀初頭のヒンディー語のコーパスを作成することにした。前者の資料としては、文学作品をいくつか選定し、テキストデータ化した。また、別ジャンルの資料としてインターネット上にある新聞やブログ等も広く収集し、併せてコーパスを作成した。後者の資料には、近代文学作品からPremchand及びBalkrishna Bhattの作品をいくつか選定しコーパスを作成した。
次年度送りとなったウルドゥー語コーパス作成の準備として、研究協力者らと手動によるIkhlaq-e-Hindのテキストデータ化について協議した。さらに同時代のウルドゥー語の他の作品のテキストデータ化と綴り字の問題についても検討し、予算内での読み取り精度の高いOCRを模索した。
一方で、現代ヒンディー語の関係詞構文の研究の準備として、既存のウェブコーパスCopus of Spoken Hindi(COSH)及びCOSH TreeBankを利用して関係詞に関するデータを収集した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

初年度は19世紀のヒンドゥスターニー語(ウルドゥー語)と同じく19世紀のヒンディー語をコーパスにする予定だったが、ウルドゥー語が使用しているアラビア・ペルシャ文字のOCRの読み取り精度が予想以上に芳しくなく、Internet Archive等にあるOCRで読み取られ、掲載されているフルテキストも、実際はかなり手動で修正しなければ使い物にならないことが判明した。さらに研究開始後の調査から、アラビア・ペルシャ文字を正確に読み取れるOCRの開発や低価格での利用が当面期待できないことが分かったため、19世紀のウルドゥー語及びヒンディー語(こちらはスキャンされた画像の問題で、同じく手動による修正が必要なことが判明した)の古書のテキストデータ化とコーパス作成は次年度送りとなった。
このように当初の計画から大幅な変更があったが、初年度に作成する予定だったコーパスのうち、手動での修正が必要なものを次年度に回し、次年度に作成予定だったボージプリー語のコーパスを先に(当該言語の研究協力者の協力も得られたため)作成できた。

Strategy for Future Research Activity

前年度に現代ボージプリー語とヒンディー語(19世紀後半-20世紀前半)のコーパス作成が終わったため、今年度は前年度予定していた19世紀のヒンドゥスターニー語(ウルドゥー語)と、同じく19世紀のヒンディー語の作品をテキストデータ化し、コーパスを作成する。さらにインターネット上のデータを利用し、現代ウルドゥー語のコーパス(予算に応じてコーパスの規模を決める予定)も作成する。
また、それぞれの言語のPOS Taggerで形態情報を付与したコーパスを、COSHのCorpusQuery Language(CQL)で検索可能にする。インターフェースのCOSH Concも、その都度機能、性能の向上、改善を図りつつ整備する。これらの技術的な開発・整備作業は、専門業者に委託して行う。
研究については、コーパスの検索が可能になった段階で、既にできているボージプリー語とヒンディー語の関係詞構文の検索を行い、パターン化を行う。ウルドゥー語についても同様に検索したデータでパターン化を行い、開催される学会や国際会議で適宜それらを発表をする。また、ウェブコーパスCOSHにある現代ヒンディー語の関係詞構文についても吟味する。

Causes of Carryover

初年度に予定していた19世紀のヒンドゥスターニー語(ウルドゥー語)のテキストデータ化とコーパス作成が、OCRの読み取り精度の低さと古い綴り字の扱い等の問題のため、予定通りに進まなかった。19世紀のヒンディー語もまた、古書に見られる不鮮明な画像や古い綴りや古い文字が混在しているため、既存のデータと照らし合わせての視認が必要になった。このように、初年度となった2023年度には、次年度に予定していたボージプリー語のデータと、オンラインで入手可能な近代ヒンディー語のデータを利用したコーパス化で収まったため、未使用額が生じた。
使用計画についてだが、本研究に使用しているウェブコーパスCopus of Spoken Hindi(COSH)と検索インターフェースのCOSH Concは、CentOS Linux 7を使用したサーバーで稼働しているが、そのサポートが今年6月にすることになった。セキュリティの観点から、新しいOSへの移行が必要となったため、今年度その移行作業を業者委託で行う。この未使用額は、主にその移行作業の費用に充てる予定である。

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi