Project/Area Number |
16720088
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Linguistics
|
Research Institution | Osaka University |
Principal Investigator |
中道 静香 大阪大学, 大学院・言語文化研究科, 助手 (30372634)
|
Project Period (FY) |
2004 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 2005: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2004: ¥1,400,000 (Direct Cost: ¥1,400,000)
|
Keywords | アラビア語 / エジプト方言 / コーパス / 方言学 / 映画 / エジプト / コーパス言語学 / 映画スクリプト / 動詞意味論 / テンス・アスペクト |
Research Abstract |
本研究は、口語アラビア語(エジプト方言)を電子テキストとして蓄積するための方法論を確立すべく、当該言語処理にとって効率的で柔軟性のあるコーパス・デザインを立案し、一例としてエジプト映画のコーパスを試作したものである。今年度は、昨年度に引き続いてコーパスの作成を進め、全部で7本の映画の文字起こしと5本分の入力を終えた。本コーパスにおいては、汎用性のないフォントにたよらずASCIIコードのみで入力したテキストを中核に位置づけ、これに文字コード変換プログラムをかけることで、Unicodeのアラビア文字コード出力および転写文字コード出力の二種類のテキストを生成できるようにした。またアラビア文字表記では明示されない、単語・形態素の区切りや同じ子音の連続なども、入力時のテキストにあらかじめ折りこみ、できるだけ正確に語を同定できるような形式のデータにした。以上のような工夫により、本コーパスは現在のアラビア語方言記述に用いられる二通りの表記法に対応できるとともに、多様な検索と出力が可能となった。ASCIIによるテキスト、アラビア文字テキストはすでにコーパスとして使用できる状態になっており、残りの転写文字テキストについては手作業による母音情報の追加が進められている。なお今年度は、東京外国語大学アジア・アフリカ研究所のCOEプログラム「アジア書字コーパスに基づく文字情報学拠点」のアラビア文字研究チームの協力を得ることができ、その成果が本コーパス構築に反映されている。平成17年10月には、情報処理学会・人文科学とコンピュータ研究会で発表を行い、それをまとめた論文「口語アラビア語コーパスの構築に向けて」が『情報処理学会研究報告(2005-CH-68)』に掲載された。また平成18年3月には、本コーパスのエジプト方言研究への利用法について口頭発表を行う予定である。
|