2019 Fiscal Year Annual Research Report
Time Series Analysis of Sentence Length
Project/Area Number |
17K02732
|
Research Institution | The University of Tokushima |
Principal Investigator |
石田 基広 徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 教授 (40232318)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | テキストマイニング / 計量言語学 |
Outline of Annual Research Achievements |
最終年度は構築したデータに対して状態空間モデルを適用した。目的は、文長の推移にトレンドや季節性を確認することにある。文長推移にローカルトレンドモデルを適用したところ、予測精度に関しては伝統的な時系列分析を上回る結果が得られた。しかし、トレンドや季節性は作品ごとにばらつき、特定の書き手あるいはジャンルという層に分けた分析でも、そこに共通の傾向は見いだせなかった。ただしライトノベルというジャンルから独自に電子化したテキストにローカル線形トレンドモデルを適用したところ、トレンドおよび周期性ともに共通の傾向が確認できたが、対象とした作家は3名であり、このジャンルの一般に当てはめ可能な知見であるかは確認できない。 最後に3年間の研究成果をまとめる。まず文長については、その確率分布を検討することが繰り返し行われてきたが、多くはランダムに抽出した十数ページ相当の文章量から頻度を求め、これらに恣意的な区間設定をした適合度を検証している。しかし、先の科研の成果(課題番号17K02732 )から、単純な総計に確率分布を当てはめることでは、文長の分布は把握できないことを指摘した。そこで本研究では、文を時系列データとみなし、トレンドや周期性を識別する可能性を模索した。伝統的な時系列分析は仮定が厳しいために、文長の変動を捕捉するのは難しかった。そこで仮定の緩やかな状態空間モデルを適用したところ、かなりよくフィットすることが可能であった。しかし、対象とした書き手それぞれの作品ごとにトレンドや周期性は変動し、何らかの層(書き手ないしジャンル)に固有の指標を識別することはできなかった。ただし、本研究で独自に電子化したライトノベルでは、きわめて類似したトレンドが確認できた。なお、本研究の成果から得た発想を、令和2年3月に刊行した一般書である『実践 R によるテキストマイニング』森北出版の執筆に活用している。
|
Research Products
(1 results)