2020 Fiscal Year Research-status Report
Research on gender of Heian period Japanese vocabulary through deep learning
Project/Area Number |
19K00629
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
近藤 泰弘 青山学院大学, 文学部, 教授 (20126064)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / N-gram / 平安時代語 / ジェンダー |
Outline of Annual Research Achievements |
日本語の古典語、特に平安時代語において、言葉の男女差があったかどうかということについてはいくつかの議論があるが、文体的な特徴においては男女の差があるものの、男女それぞれの特有語というような語彙的なレベルでは大きな差を見つけることが困難であるというのが現在の平均的な考え方だと思われる。 本研究実施者は、これまでも平安時代語のジェンダー研究を行ってきた。主たるものは、N-gram分析を使うものである。例えば『古今集』のうち、男性歌か、女性歌かが、明確なものを抜き出し、それをすべて平仮名にする。そして、その仮名文字の連鎖(文字列)をすべて列挙する。例えば、2文字(2gram)では、あ-い、あ-か、あ-ま、等、3文字(3gram)では、あ-か-ず、あ-か-に、等。そして、これを意味のない文字列まで含めてすべて20gramまで収集してから、男女ごとにまとめ、その(集合論的)差分をとる(7)。そうすると、次のように男性特有の文字列と、女性特有の文字列を抽出することができる。これらを調査してみると、男性特有文字列に特徴的なものが多い。 今年度の研究では、以上の点についても、改めて『源氏物語』によって、追加的研究を行った。 また、word2vecは、単語の共起関係だけから、深層学習により単語の意味を数百次元のベクトルとして算出するが、このベクトルの演算によって、直接に意味を計算・比較できることが非常に大きな特徴である。今年度は、まず、『源氏物語』中の単語すべての分散表現をword2vecで作成し、その中で、ある単語とベクトルが近い(具体的にはコサイン類似度で計測)もののリストを作り、ひとつの表現がその他のジェンダー的表現とどのような関連があるかを調査して、大きな成果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の当初の目的の平安時代語ジェンダーの体系について明らかになったことは多い。従来明らかになっていなかった文長の研究では、長いセンテンスは男性話者に非常に偏って出現することがわかった。僧都、源氏、薫、柏木、式部丞、などであり、また例外的に女性で長いのは、(桐壺更衣の)母君、右近、弁の尼といった主人公の周辺女房である。紫の上などの主要女性人物は、いずれも文が短い。(紫の上の最長文は31短単位である)これは、そのような女性たちが長々しく語るということがジェンダー規範に反するものであったことを意味すると思われる。 このように、平安文学作品では、明らかに語彙のレベル・文体のレベルでの、言語使用者のジェンダー差があるように描かれている。そして、そのいずれもが、当時の社会のジェンダー的規範によって構築されたものであり、『古今集』はそのプロトタイプを示すひとつの言語資源(リソース)となっていると考えられるのである。これらの言語のジェンダー差が現実の言語使用を反映していたものかどうかについての明確な判断はしにくいが、非常に幅広いものであり単なる文学的虚構であるとは言えないように思われる。これらのことについて、学会発表を3件行ったが、次年度以降、これを論文化できる予定である。
|
Strategy for Future Research Activity |
次年度の最終年度では、さらに深層学習を用いて、ジェンダー的な表現がどのように分布しているかについてのまとめを行い、これまでの研究と統合して、さらに幅広い研究を行っていく予定である。これによって、従来知られていなかった平安時代語のジェンダー体系について、明確な結論が得られると考えている。この問題は、ジェンダーに留まらず、日本語の会話文の原理や、敬語の成り立ちなど、幅広い射程を持っている。次年度ではなるべくこれらの点についても考察を深めていく予定である。また、この結果について、論文化するだけでなく、『平安時代語のジェンダー』という形の単行本化も構想している。さらには、ここで扱った文節の構造などについては、次のような新たな研究も行っている。 日本語の文法を、数理的に、形式言語という観点から見ると、 1 文節を組み合わせる、句構造文法(2 型) 2 文節を作り上げる、正規文法(3 型) の 2 種類の異なった形式からできていることがわかる。この研究にも本研究から得たものを用いていく予定である。
|
Research Products
(3 results)