研究課題/領域番号 |
23K00523
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 大阪大学 |
研究代表者 |
西岡 美樹 大阪大学, 大学院人文学研究科(外国学専攻、日本学専攻), 准教授 (30452478)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2025年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2024年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2023年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | ボージプリー語 / ヒンディー語 / ウルドゥー語 / ヒンドゥスターニー語 / 関係詞構文 / コーパス / ヒンディー・ウルドゥー語 / ヒンドスターニー語 |
研究開始時の研究の概要 |
本研究では、ヒンドゥスターニー語及び現代語のウルドゥー語、ボージプリー語の各ウェブコーパス作成し、専用の検索ツールを用いて定量的研究を行える環境を整備し、現代ヒンディー語の関係詞構文の通時的及び共時的な比較研究を短時間で行う。具体的には、現代ヒンディー語で見られる関係詞構文の、伝統的な相関型、英語の影響を受けたとされる埋め込み型、外置型、相関型と埋め込み型のハイブリッド、さらに日本語の準体助詞(体言化辞)「の」に類似した強調表現を表わす埋め込み型のもの、この5つの型について、説明文や自然言語の会話文のような文体もしくはジャンルの違いにも着目して比較研究を行う。
|
研究実績の概要 |
初年度となる2023年度は、まず19世紀のヒンドゥスターニー語(ウルドゥー語)のコーパスを作成するため、Dr. A. Desoulieres(INALCO)とDr. M. Nawaz(COMSATS University Islamabad)の協力を得て、オンラインで入手可能なIkhlaq-e-HindのPDFとOCRでスキャンされたフルテキストのデータについて吟味した。その結果、ウルドゥー語のOCRの読み取り精度に問題があり、手動による修正箇所が予想以上に多いことが判明した。さらにウルドゥー語もヒンディー語のいずれも、古書にしばしば見られる旧い綴り方や旧い文字等の問題を解決する必要が生じた。そのため、予定を変更し、初年度に現代ボージプリー語と19世紀末~20世紀初頭のヒンディー語のコーパスを作成することにした。前者の資料としては、文学作品をいくつか選定し、テキストデータ化した。また、別ジャンルの資料としてインターネット上にある新聞やブログ等も広く収集し、併せてコーパスを作成した。後者の資料には、近代文学作品からPremchand及びBalkrishna Bhattの作品をいくつか選定しコーパスを作成した。 次年度送りとなったウルドゥー語コーパス作成の準備として、研究協力者らと手動によるIkhlaq-e-Hindのテキストデータ化について協議した。さらに同時代のウルドゥー語の他の作品のテキストデータ化と綴り字の問題についても検討し、予算内での読み取り精度の高いOCRを模索した。 一方で、現代ヒンディー語の関係詞構文の研究の準備として、既存のウェブコーパスCopus of Spoken Hindi(COSH)及びCOSH TreeBankを利用して関係詞に関するデータを収集した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度は19世紀のヒンドゥスターニー語(ウルドゥー語)と同じく19世紀のヒンディー語をコーパスにする予定だったが、ウルドゥー語が使用しているアラビア・ペルシャ文字のOCRの読み取り精度が予想以上に芳しくなく、Internet Archive等にあるOCRで読み取られ、掲載されているフルテキストも、実際はかなり手動で修正しなければ使い物にならないことが判明した。さらに研究開始後の調査から、アラビア・ペルシャ文字を正確に読み取れるOCRの開発や低価格での利用が当面期待できないことが分かったため、19世紀のウルドゥー語及びヒンディー語(こちらはスキャンされた画像の問題で、同じく手動による修正が必要なことが判明した)の古書のテキストデータ化とコーパス作成は次年度送りとなった。 このように当初の計画から大幅な変更があったが、初年度に作成する予定だったコーパスのうち、手動での修正が必要なものを次年度に回し、次年度に作成予定だったボージプリー語のコーパスを先に(当該言語の研究協力者の協力も得られたため)作成できた。
|
今後の研究の推進方策 |
前年度に現代ボージプリー語とヒンディー語(19世紀後半-20世紀前半)のコーパス作成が終わったため、今年度は前年度予定していた19世紀のヒンドゥスターニー語(ウルドゥー語)と、同じく19世紀のヒンディー語の作品をテキストデータ化し、コーパスを作成する。さらにインターネット上のデータを利用し、現代ウルドゥー語のコーパス(予算に応じてコーパスの規模を決める予定)も作成する。 また、それぞれの言語のPOS Taggerで形態情報を付与したコーパスを、COSHのCorpusQuery Language(CQL)で検索可能にする。インターフェースのCOSH Concも、その都度機能、性能の向上、改善を図りつつ整備する。これらの技術的な開発・整備作業は、専門業者に委託して行う。 研究については、コーパスの検索が可能になった段階で、既にできているボージプリー語とヒンディー語の関係詞構文の検索を行い、パターン化を行う。ウルドゥー語についても同様に検索したデータでパターン化を行い、開催される学会や国際会議で適宜それらを発表をする。また、ウェブコーパスCOSHにある現代ヒンディー語の関係詞構文についても吟味する。
|