• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

口語アラビア語研究のためのコーパス開発とその応用

研究課題

研究課題/領域番号 16720088
研究種目

若手研究(B)

配分区分補助金
研究分野 言語学
研究機関大阪大学

研究代表者

中道 静香  大阪大学, 大学院・言語文化研究科, 助手 (30372634)

研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
1,900千円 (直接経費: 1,900千円)
2005年度: 500千円 (直接経費: 500千円)
2004年度: 1,400千円 (直接経費: 1,400千円)
キーワードアラビア語 / エジプト方言 / コーパス / 方言学 / 映画 / エジプト / コーパス言語学 / 映画スクリプト / 動詞意味論 / テンス・アスペクト
研究概要

本研究は、口語アラビア語(エジプト方言)を電子テキストとして蓄積するための方法論を確立すべく、当該言語処理にとって効率的で柔軟性のあるコーパス・デザインを立案し、一例としてエジプト映画のコーパスを試作したものである。今年度は、昨年度に引き続いてコーパスの作成を進め、全部で7本の映画の文字起こしと5本分の入力を終えた。本コーパスにおいては、汎用性のないフォントにたよらずASCIIコードのみで入力したテキストを中核に位置づけ、これに文字コード変換プログラムをかけることで、Unicodeのアラビア文字コード出力および転写文字コード出力の二種類のテキストを生成できるようにした。またアラビア文字表記では明示されない、単語・形態素の区切りや同じ子音の連続なども、入力時のテキストにあらかじめ折りこみ、できるだけ正確に語を同定できるような形式のデータにした。以上のような工夫により、本コーパスは現在のアラビア語方言記述に用いられる二通りの表記法に対応できるとともに、多様な検索と出力が可能となった。ASCIIによるテキスト、アラビア文字テキストはすでにコーパスとして使用できる状態になっており、残りの転写文字テキストについては手作業による母音情報の追加が進められている。なお今年度は、東京外国語大学アジア・アフリカ研究所のCOEプログラム「アジア書字コーパスに基づく文字情報学拠点」のアラビア文字研究チームの協力を得ることができ、その成果が本コーパス構築に反映されている。平成17年10月には、情報処理学会・人文科学とコンピュータ研究会で発表を行い、それをまとめた論文「口語アラビア語コーパスの構築に向けて」が『情報処理学会研究報告(2005-CH-68)』に掲載された。また平成18年3月には、本コーパスのエジプト方言研究への利用法について口頭発表を行う予定である。

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (3件)

すべて 2005 2004 その他

すべて 雑誌論文 (3件)

  • [雑誌論文] エジプト口語アラビア語コーパスの構築に向けて2005

    • 著者名/発表者名
      中道静香
    • 雑誌名

      情報処理学会研究報告[人文科学とコンピュータ] 68号

      ページ: 25-32

    • NAID

      110002952911

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Literary languageとしての口語アラビア語の足跡-エジプトの影絵芝居、演劇、映画の場合-2004

    • 著者名/発表者名
      中道 静香
    • 雑誌名

      現代アフリカ文学の動向(言語文化共同研究プロジェクト2003)

      ページ: 9-16

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] カイロ方言の能動分詞における時間性 -統一的説明に向けて-

    • 著者名/発表者名
      中道 静香
    • 雑誌名

      関西アラブ・イスラーム研究 4号(印刷中)

    • NAID

      40006887647

    • 関連する報告書
      2004 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi