今回の研究においては、平安時代語のデータベースを作成し、そのデータを元に深層学習を応用して、ジェンダーに関する語の分布や文体についての研究を行うことを意図した。平安時代語のデータベースは、国立国語研究所の日本語歴史コーパス(CHJ)の原データを用い、それが保存されているSQLデータベースから引き出したデータを再構成した。それによって得られた資料を、手元のジェンダー性によって学習させ、それでその他のデータを深層学習によって分類した。 また、深層学習を用いて単語分散表現を算出できるword2vecを用いて、ベクトル化した数値を求め、その数値のベクトルを次元圧縮することで、多くの情報を得ることができた。 それによって、得た結果を用いて、平安時代語形容詞の分類を行い、ジェンダー性によって「シク活用形容詞」の分布が異なっていることを示すことができた。また、平安時代語の敬語の分布について、男女の違いがあること、また、文の長さなどと関係性があることなどを示すことができた。また、平安時代語の敬語が、地の文で使われることについては、平安時代語の資料が文学作品であり、「語り」という性格を持っているために、現代語とは異なった状況を示していることも合わせて論証した。また、和歌の文体では、逆に敬語がまったく用いられないが、これは、和歌の文体が「語り」とは無関係であり、空間ダイクシスにも欠けるものであることと深い関係があることを示した。ジェンダー的な性格についても、これらの体系の中で考えていくことが必要である。 なお、これらの成果の一部は、近藤泰弘・澤田淳『敬語の文法と語用論』(開拓社)に収めた論文の中で公開している。
|