• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

口語アラビア語研究のためのコーパス開発とその応用

Research Project

Project/Area Number 16720088
Research InstitutionOsaka University

Principal Investigator

中道 静香  大阪大学, 大学院・言語文化研究科, 助手 (30372634)

Keywordsアラビア語 / エジプト方言 / コーパス / 方言学 / 映画
Research Abstract

本研究は、口語アラビア語(エジプト方言)を電子テキストとして蓄積するための方法論を確立すべく、当該言語処理にとって効率的で柔軟性のあるコーパス・デザインを立案し、一例としてエジプト映画のコーパスを試作したものである。今年度は、昨年度に引き続いてコーパスの作成を進め、全部で7本の映画の文字起こしと5本分の入力を終えた。本コーパスにおいては、汎用性のないフォントにたよらずASCIIコードのみで入力したテキストを中核に位置づけ、これに文字コード変換プログラムをかけることで、Unicodeのアラビア文字コード出力および転写文字コード出力の二種類のテキストを生成できるようにした。またアラビア文字表記では明示されない、単語・形態素の区切りや同じ子音の連続なども、入力時のテキストにあらかじめ折りこみ、できるだけ正確に語を同定できるような形式のデータにした。以上のような工夫により、本コーパスは現在のアラビア語方言記述に用いられる二通りの表記法に対応できるとともに、多様な検索と出力が可能となった。ASCIIによるテキスト、アラビア文字テキストはすでにコーパスとして使用できる状態になっており、残りの転写文字テキストについては手作業による母音情報の追加が進められている。なお今年度は、東京外国語大学アジア・アフリカ研究所のCOEプログラム「アジア書字コーパスに基づく文字情報学拠点」のアラビア文字研究チームの協力を得ることができ、その成果が本コーパス構築に反映されている。平成17年10月には、情報処理学会・人文科学とコンピュータ研究会で発表を行い、それをまとめた論文「口語アラビア語コーパスの構築に向けて」が『情報処理学会研究報告(2005-CH-68)』に掲載された。また平成18年3月には、本コーパスのエジプト方言研究への利用法について口頭発表を行う予定である。

  • Research Products

    (1 results)

All 2005

All Journal Article (1 results)

  • [Journal Article] エジプト口語アラビア語コーパスの構築に向けて2005

    • Author(s)
      中道静香
    • Journal Title

      情報処理学会研究報告[人文科学とコンピュータ] 68号

      Pages: 25-32

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi