研究課題/領域番号 |
09044004
|
研究機関 | 東京外国語大学 |
研究代表者 |
ペーリ バースカララーオ 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (00272617)
|
研究分担者 |
高橋 孝信 東京大学, 大学院・人文社会系研究科, 助教授 (10236292)
奈良 毅 清泉女子大学, 人文科学研究所, 教授 (90014464)
峰岸 真琴 東京外国語大学, アジア・アフリカ言語文化研究所, 助教授 (20190712)
高島 淳 東京外国語大学, アジア・アフリカ言語文化研究所, 助教授 (40202147)
町田 和彦 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (70134749)
|
キーワード | テルグ語 / ヒンディー語 / サンスクリット語 / ベンガル語 / タミル語 / マラヤーラム語 / カンナダ語 / マラーティー語 |
研究概要 |
本年度は,インド中央諸語研究所と共同で、インドの主要8言語について、昨年度に機械可読辞書について検討した内容を試験的に入力し、その結果を検証した。 1. 昨年度の研究で決定した共通フォーマットを機械辞書の内容(見出し語形文法情報、発音、語源、語義、文化情報など)に適用し、その有効性を検証し、部分的の機械辞書のフォーマットを修正した。 ・ 各言語について、見出し語形の発音をつづりから自動生成させるために必要なプログラムを修正、拡張した。 ・ 引き続き、対象8言語を表記するインド系文字の文字コードを吟味した。 ・ 日本及びインド側が蓄積してきた対象8言語の辞書データベース、テキストデータベースをチェックし、本研究における再利用を前提に、コンバート等の問題点を検討した。 2. 構文解析用プログラムのプロトタイプの機能をチェックした。 3. さらに、インド諸語中央研究所において入力された、アッサム語、ベンガル語、ヒンディー語、カンナダ語、カシミーリー語、マラヤーラム語、マラーティー語、オリャー語、パンジャービー語、タミル語、テルグ語、ウルドゥー語の教科書等の言語コーバスデータ総計約240MBytesを受領し、今後これをテキストコーパスとして利用する際に問題となる、スペルチェックテキストタグなどについて検討した。
|