• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

口語アラビア語研究のためのコーパス開発とその応用

研究課題

研究課題/領域番号 16720088
研究機関大阪大学

研究代表者

中道 静香  大阪大学, 大学院・言語文化研究科, 助手 (30372634)

キーワードアラビア語 / エジプト方言 / コーパス / 方言学 / 映画
研究概要

本研究は、口語アラビア語(エジプト方言)を電子テキストとして蓄積するための方法論を確立すべく、当該言語処理にとって効率的で柔軟性のあるコーパス・デザインを立案し、一例としてエジプト映画のコーパスを試作したものである。今年度は、昨年度に引き続いてコーパスの作成を進め、全部で7本の映画の文字起こしと5本分の入力を終えた。本コーパスにおいては、汎用性のないフォントにたよらずASCIIコードのみで入力したテキストを中核に位置づけ、これに文字コード変換プログラムをかけることで、Unicodeのアラビア文字コード出力および転写文字コード出力の二種類のテキストを生成できるようにした。またアラビア文字表記では明示されない、単語・形態素の区切りや同じ子音の連続なども、入力時のテキストにあらかじめ折りこみ、できるだけ正確に語を同定できるような形式のデータにした。以上のような工夫により、本コーパスは現在のアラビア語方言記述に用いられる二通りの表記法に対応できるとともに、多様な検索と出力が可能となった。ASCIIによるテキスト、アラビア文字テキストはすでにコーパスとして使用できる状態になっており、残りの転写文字テキストについては手作業による母音情報の追加が進められている。なお今年度は、東京外国語大学アジア・アフリカ研究所のCOEプログラム「アジア書字コーパスに基づく文字情報学拠点」のアラビア文字研究チームの協力を得ることができ、その成果が本コーパス構築に反映されている。平成17年10月には、情報処理学会・人文科学とコンピュータ研究会で発表を行い、それをまとめた論文「口語アラビア語コーパスの構築に向けて」が『情報処理学会研究報告(2005-CH-68)』に掲載された。また平成18年3月には、本コーパスのエジプト方言研究への利用法について口頭発表を行う予定である。

  • 研究成果

    (1件)

すべて 2005

すべて 雑誌論文 (1件)

  • [雑誌論文] エジプト口語アラビア語コーパスの構築に向けて2005

    • 著者名/発表者名
      中道静香
    • 雑誌名

      情報処理学会研究報告[人文科学とコンピュータ] 68号

      ページ: 25-32

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi