研究課題/領域番号 |
15520269
|
研究機関 | 中央大学 |
研究代表者 |
遠藤 雅裕 中央大学, 法学部, 助教授 (10297103)
|
研究分担者 |
藤田 益子 新潟大学, 留学生センター, 助教授 (10284621)
竹越 孝 愛知県立大学, 外国語学部, 助教授 (10295230)
|
キーワード | タグ付コーパス / 計量言語学 / 老乞大 / 兒女英雄傳 |
研究概要 |
『舊本老乞大』の電子テキストに対しタグ付けを開始した。まず、タグ付けの基本方針及び作業手順を、概略以下のように定めた。 1.テキストを一文ごとに改行し、文頭に出所情報を入れる(<版本・話数_丁数・表裏・行>)。句読点・話数は、金文京等訳『老乞大-朝鮮中世の中国語会話読本』(東洋文庫699)に従う。 2.単位語を認定し、スラッシュ(/)で区切る。(1)単位語の認定は長い単位に基づく。(2)助動詞・前置詞などの機能語も単位語として認める。(3)動詞+補語は、原則、構成要素をすべて区切る。(4)動詞などの重ね型は、原則1単位語として扱う。 3.音声情報はピンインで表記する。ピンインは[]内に表記する。(1)声調は1〜4、軽声は5で表記する。(2)軽声の入力はなるべく避ける。 4.品詞情報を()内に入力。品詞情報は、北京大学計算語言学研究所の「漢語文本切分与詞性標注」に従う。 5.出所情報を)と]の間に入力。 具体的には、以下のようになる。 <G038_13b10-14a01>主人家哥[zhu3ren2jia1ge1(n)<G038_13b10-14a01>]/,俺[an3(r)<G038_13b10-14a01>]/不[bu4(d)]/是[shi4(v)<G038_13b10-14a01>]/歹人[dai3ren2(n)<G038_13b10-14a01>]/。 作業は、出所に関しては37〜106話が完了し、単位語の認定とそのタグ付けについては、3〜18話、37〜38話が終了している。なお、軽声・結果補語・離合動詞・方位詞などの扱いについては、今後さらなる検討が必要である。 なお、『老乞大』から得られた知見から、遠藤・竹越が中国の南開大学で報告を行った。 『兒女英雄傳』に関しては、藤田が上海図書館古籍閲覧室所蔵の版本について、その種類・内容などを調査し記録した。
|