2020 Fiscal Year Annual Research Report
A Study of Stylistic Change in Japanese Based on Data Science and Modeling of its Structure
Project/Area Number |
18K00627
|
Research Institution | Doshisha University |
Principal Investigator |
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 文体変化 / モデリング / コーパス作成 / 正則化回帰 / ランダムフォレスト |
Outline of Annual Research Achievements |
本研究の目的は,小説文に焦点を当て,データサイエンスの手法を用いて近現代文学作品の文体変化およびその構造をモデリングし,近未来の文体の変化のトレンドを予測する.また,変化要素について文体学および言語学の側面から分析を試みる. 本研究では100年以上(1905~2015年)の間に文体および言語の使用がどのように変遷しているかを分析するため,まず用いるコーパスの作成を行った.コーパスは100年以上にわたる膨大な小説から,1年ごと約5名ずつの代表的な作家の作品をサンプリングし,作成した.完成したコーパスは592人の592篇作品で,総文字数は9557078である.具体的には,青空文庫・電子文芸館から175人の175篇の作品,それ以外の417篇は紙媒体をOCRで電子化し,クリーニングを行った. 次に,作成したコーパスについて,自然言語処理技術を用いて,形態素解析や構文解析を行い,集計分析を進めている.文体の変化を進化という視点で系統分析,モデリングの視点で正則化回帰モデル法,ランダムフォレスト回帰,構造的トピックモデル,深層学習のアプローチからはBERTによるベクトル埋め込みなどを駆使して研究を行っている.その結果,各々助詞の使用率を用いたモデリングが高い精度で可能であることが分かった.それをまとめた「モデリングから見る小説における助詞の経時変化」が査読付きの学会論文として採択された.そのほか,文末表現パターン,接続助詞などについても分析を進めている.
|
Research Products
(23 results)