2019 Fiscal Year Research-status Report
Research on gender of Heian period Japanese vocabulary through deep learning
Project/Area Number |
19K00629
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
近藤 泰弘 青山学院大学, 文学部, 教授 (20126064)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | ジェンダー / 平安時代語 / 性差 / 女性語 / 深層学習 / 機械学習 |
Outline of Annual Research Achievements |
本年度は日本語歴史コーパスからの語彙素抽出作業を中心に行った。本文の総合索引を作るために、日本語歴史コーパスをSQLサーバーに格納したものから、データを取り出し、短単位および長単位それぞれについての総索引を作成している。プログラミング言語としてはPython言語を利用し、効率よく索引を作り出すための工夫をしている。 また、購入したディープラーニングサーバーにより、取り出された「短単位」の語彙素を、深層学習ソフトウェアにかけることで、各種の素性ベクトルを抽出することを試みているが、ある程度の成果を得つつある。次の課題としては、素性ベクトルから各種の統計分析によって、語彙の類似度やグループ化をもとに、語彙のジェンダー性の体系を明らかにすることであるが、それは次年度の課題としたい。 なお、本年度の語彙の統計の段階まででもある程度のジェンダー性についての方向性を発見することができたたため、日本語学会の秋季シンポジウムで発表する予定である。具体的には、平安時代の語彙において、あきらかに男女差があることと、その男女差は、語彙の分布によって区別されること、また、その区別は、語彙の意味的性格によって産み出されることを述べる予定である。 ソフトウェア的進展としては、従来から作成してきた日本語歴史語彙集を増補して、日本語基本用例集を作成することをひとつの目標としているが、それについても、本年度にかなり進展した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定していたSQLサーバーからの語彙の抽出作業を無事に終了することができた。また、多くの処理プログラムの作成も完成した。特に、本年は、ディープラーニングサーバーの購入がしばらく遅れることとなった(必要とする仕様を持ったものが品薄であったため)。しかし、その代わりに、Googleの提供するプログラミング環境であるColaboratoryを使って、ソフトウェアのプロトタイプを作ることが可能であった。Colaboratoryは、深層学習用のGPUやTPUも用いることができるため、非常に容易にプログラミングが可能である。 また、得られた語彙集からの統計的処理も順調に進んでおり、それによって、平安時代の男性語・女性語の文学作品における使い分けもある程度明らかになってきている。 以上のように、予定していた研究については、サーバーの購入が遅くなった点を除いてほぼ順調に進展している。
|
Strategy for Future Research Activity |
以上のように順調に進行していることから、次年度では、予定通り、収集された語彙の深層学習による分析を行っていく。まず次年度はWord2vec等の語彙のベクトル化を行い、ベクトル化した語彙によって統計分析を行う。それによって、従来の単語単位の語彙集合の研究によって分類した結果と、ベクトル化してから統計処理したものとを比較検討することが可能になる。 これによって、男性語と女性語を計量的に比較することが可能になり、男性語的性格や女性語的な性格を点数化することもできるだろう。平安時代語のジェンダー研究において、画期的な成果を得られることは間違いないものと確信している。これによって、当初の研究計画を完成し、日本文化の重要な側面を明らかにすることが可能になる。
|
Research Products
(2 results)