2007 Fiscal Year Annual Research Report
ロシアおよびその周辺の少数言語のコーパスの構築と記述的・歴史的研究
Project/Area Number |
18202010
|
Research Institution | The University of Tokyo |
Principal Investigator |
松村 一登 The University of Tokyo, 大学院・人文社会系研究科, 教授 (40165866)
|
Co-Investigator(Kenkyū-buntansha) |
滝沢 直宏 名古屋大学, 大学院・国際開発研究科, 教授 (60252285)
後藤 斉 東北大学, 大学院・文学研究科, 教授 (90162156)
千葉 庄寿 麗澤大学, 外国語学部, 准教授 (70337723)
小森 宏美 京都大学, 地域研究統合情報センター, 准教授 (50353454)
|
Keywords | 言語学 / 外国語 / コーパス / 少数言語 / ウラル諸語 / ロシア / 言語資料 / マークアップ |
Research Abstract |
前年度にマイクロ撮影し画像データに変換してあった,20世紀初頭のエストニア語の言語資料(エストニア憲法制定会議議事録,1919〜1920)を,エストニア国立図書館の協力を得て,OCR(光学的文字認識)によって,文字データ化する作業を終えた。文字データ化したテクストの校正(誤認識の修正)の作業を,エストニア在住の母語話者に委託して,年度内に半分程度まで終了させた(H20年度に繰り越した分は2008年6月末に終了)。この言語資料は,校正が終わった部分から,順次整形加工してXML文書化し,コーパスとして利用できるようにした。 エストニア憲法制定会議議事録を含め,これまでにコーパスとして利用できるように加工し蓄積してきたエストニア語の言語資料を利用して,エストニア語の語彙や用法の研究を行った。用例検索には,Perl言語を使って独自に開発されたツールを使った。また,このエストニア語の言語資料とコーパス検索ツールを,東京大学の修士課程の学生が,修士論文のための研究に利用した。 エストニア語(エストニア共和国)の現地調査と言語資料の収集を行った(松村一登,研究代表者;小森宏美,研究分担者)。 イテリメン語(ロシア・カムチャツカ半島,小野智香子,研究協力者),カルムイク語(ロシア連邦・カルムイク共和国,荒井幸康,研究協力者),バツビ語(コーカサス・グルジア,児島康宏,研究協力者)の現地調査と言語資料の収集を行った。
|
Research Products
(2 results)