Project/Area Number |
23K00523
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Osaka University |
Principal Investigator |
西岡 美樹 大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (30452478)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2024: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | ボージプリー語 / ヒンディー語 / ウルドゥー語 / ヒンドゥスターニー語 / 関係詞構文 / コーパス / ヒンディー・ウルドゥー語 / ヒンドスターニー語 |
Outline of Research at the Start |
本研究では、ヒンドゥスターニー語及び現代語のウルドゥー語、ボージプリー語の各ウェブコーパス作成し、専用の検索ツールを用いて定量的研究を行える環境を整備し、現代ヒンディー語の関係詞構文の通時的及び共時的な比較研究を短時間で行う。具体的には、現代ヒンディー語で見られる関係詞構文の、伝統的な相関型、英語の影響を受けたとされる埋め込み型、外置型、相関型と埋め込み型のハイブリッド、さらに日本語の準体助詞(体言化辞)「の」に類似した強調表現を表わす埋め込み型のもの、この5つの型について、説明文や自然言語の会話文のような文体もしくはジャンルの違いにも着目して比較研究を行う。
|
Outline of Annual Research Achievements |
初年度となる2023年度は、まず19世紀のヒンドゥスターニー語(ウルドゥー語)のコーパスを作成するため、Dr. A. Desoulieres(INALCO)とDr. M. Nawaz(COMSATS University Islamabad)の協力を得て、オンラインで入手可能なIkhlaq-e-HindのPDFとOCRでスキャンされたフルテキストのデータについて吟味した。その結果、ウルドゥー語のOCRの読み取り精度に問題があり、手動による修正箇所が予想以上に多いことが判明した。さらにウルドゥー語もヒンディー語のいずれも、古書にしばしば見られる旧い綴り方や旧い文字等の問題を解決する必要が生じた。そのため、予定を変更し、初年度に現代ボージプリー語と19世紀末~20世紀初頭のヒンディー語のコーパスを作成することにした。前者の資料としては、文学作品をいくつか選定し、テキストデータ化した。また、別ジャンルの資料としてインターネット上にある新聞やブログ等も広く収集し、併せてコーパスを作成した。後者の資料には、近代文学作品からPremchand及びBalkrishna Bhattの作品をいくつか選定しコーパスを作成した。 次年度送りとなったウルドゥー語コーパス作成の準備として、研究協力者らと手動によるIkhlaq-e-Hindのテキストデータ化について協議した。さらに同時代のウルドゥー語の他の作品のテキストデータ化と綴り字の問題についても検討し、予算内での読み取り精度の高いOCRを模索した。 一方で、現代ヒンディー語の関係詞構文の研究の準備として、既存のウェブコーパスCopus of Spoken Hindi(COSH)及びCOSH TreeBankを利用して関係詞に関するデータを収集した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度は19世紀のヒンドゥスターニー語(ウルドゥー語)と同じく19世紀のヒンディー語をコーパスにする予定だったが、ウルドゥー語が使用しているアラビア・ペルシャ文字のOCRの読み取り精度が予想以上に芳しくなく、Internet Archive等にあるOCRで読み取られ、掲載されているフルテキストも、実際はかなり手動で修正しなければ使い物にならないことが判明した。さらに研究開始後の調査から、アラビア・ペルシャ文字を正確に読み取れるOCRの開発や低価格での利用が当面期待できないことが分かったため、19世紀のウルドゥー語及びヒンディー語(こちらはスキャンされた画像の問題で、同じく手動による修正が必要なことが判明した)の古書のテキストデータ化とコーパス作成は次年度送りとなった。 このように当初の計画から大幅な変更があったが、初年度に作成する予定だったコーパスのうち、手動での修正が必要なものを次年度に回し、次年度に作成予定だったボージプリー語のコーパスを先に(当該言語の研究協力者の協力も得られたため)作成できた。
|
Strategy for Future Research Activity |
前年度に現代ボージプリー語とヒンディー語(19世紀後半-20世紀前半)のコーパス作成が終わったため、今年度は前年度予定していた19世紀のヒンドゥスターニー語(ウルドゥー語)と、同じく19世紀のヒンディー語の作品をテキストデータ化し、コーパスを作成する。さらにインターネット上のデータを利用し、現代ウルドゥー語のコーパス(予算に応じてコーパスの規模を決める予定)も作成する。 また、それぞれの言語のPOS Taggerで形態情報を付与したコーパスを、COSHのCorpusQuery Language(CQL)で検索可能にする。インターフェースのCOSH Concも、その都度機能、性能の向上、改善を図りつつ整備する。これらの技術的な開発・整備作業は、専門業者に委託して行う。 研究については、コーパスの検索が可能になった段階で、既にできているボージプリー語とヒンディー語の関係詞構文の検索を行い、パターン化を行う。ウルドゥー語についても同様に検索したデータでパターン化を行い、開催される学会や国際会議で適宜それらを発表をする。また、ウェブコーパスCOSHにある現代ヒンディー語の関係詞構文についても吟味する。
|