研究課題/領域番号 |
24320074
|
研究種目 |
基盤研究(B)
|
研究機関 | 東京外国語大学 |
研究代表者 |
町田 和彦 東京外国語大学, アジアアフリカ言語文化研究所, 教授 (70134749)
|
研究分担者 |
三上 喜貴 長岡技術科学大学, 技術経営研究科, 教授 (70293264)
萩田 博 東京外国語大学, 大学院・総合国際学研究院, 准教授 (80143618)
萬宮 健策 東京外国語大学, 大学院・総合国際学研究院, 准教授 (00403204)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | ヒンディー語 / ウルドゥー語 / 語彙 |
研究概要 |
本研究の初年度である平成24年度は、以下の活動を行った。 1)語彙属性の設定と機械辞書作成 本研究開始前から準備が進められていたヒンディー語、ウルドゥー語の基礎語彙リストを最初から見直し、その語彙属性の確定作業を進めた。その際、ペルシア語、アラビア語、サンスクリット語等語源情報は特に重要な要素であるため、各種辞書等を参照しつつ、修正作業を進めた。語源情報の修正には、予想以上に時間を取られているものの、2年目となる平成25年度上半期をメドに完成させるという、ほぼ当初の予定どおりに機械辞書作成が進められている。 2)時代別のヒンディー語・ウルドゥー語散文テキストの電子化 機械辞書が完成したあとの本研究の中心となる、ヒンディー語、ウルドゥー語散文分析のための電子データ作成も、研究代表者、研究分担者がそれぞれの担当分野から代表的な作品を抽出し、電子データ化作業を進めた。平成24年度には、ウルドゥー語散文の代表作品と言える「ウムラーオ・ジャーン」や、詩人ガーリブの書簡集が電子化され、同時並行的にその校訂作業が進められている。 3)語彙属性の定量分析 上記1)で説明した機械辞書が、どの程度正確に機能しているかの確認のため、2)で電子化されたデータ等を用いつつ、定量分析を試験的に実施し始めた。さまざまなデータ分析を行うにあたり、著作権等の問題に配慮しつつ、以下のウェブサイトで、必要なデータ等を一部公開している。初年度終了時点ではハードウェア的な制限から、サイズの大きなデータ分析には至っていないが、短文については、大きな支障なく分析が行えることを研究代表者、研究分担者らが確認した。 http://www.aa.tufs.ac.jp/~kmach/hirdu/html/fulltextsearch.htm
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の核の1つである、機械辞書の修正作業に多少時間がかかっているものの、今後の研究計画を見直す必要があるほどの問題はなく、またそれ以外の研究自体は当初の計画どおり順調に進んでいる。
|
今後の研究の推進方策 |
本研究の2年目となる平成25年度は、初年度に引き続き、ヒンディー語、ウルドゥー語散文テキストの電子データ化を推進するとともに、そのデータを用いる機械辞書の更なる充実を図る。また、機械辞書充実のため、インドおよびパキスタンで母語話者による音声データの収集を行う。
|