2019 年度実績報告書

文章の時系列変化に関する研究

研究課題

研究課題/領域番号	17K02732
研究機関	徳島大学
研究代表者	石田基広徳島大学, 大学院社会産業理工学研究部(社会総合科学域), 教授 (40232318)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	テキストマイニング / 計量言語学
研究実績の概要	最終年度は構築したデータに対して状態空間モデルを適用した。目的は、文長の推移にトレンドや季節性を確認することにある。文長推移にローカルトレンドモデルを適用したところ、予測精度に関しては伝統的な時系列分析を上回る結果が得られた。しかし、トレンドや季節性は作品ごとにばらつき、特定の書き手あるいはジャンルという層に分けた分析でも、そこに共通の傾向は見いだせなかった。ただしライトノベルというジャンルから独自に電子化したテキストにローカル線形トレンドモデルを適用したところ、トレンドおよび周期性ともに共通の傾向が確認できたが、対象とした作家は3名であり、このジャンルの一般に当てはめ可能な知見であるかは確認できない。最後に3年間の研究成果をまとめる。まず文長については、その確率分布を検討することが繰り返し行われてきたが、多くはランダムに抽出した十数ページ相当の文章量から頻度を求め、これらに恣意的な区間設定をした適合度を検証している。しかし、先の科研の成果（課題番号17K02732 ）から、単純な総計に確率分布を当てはめることでは、文長の分布は把握できないことを指摘した。そこで本研究では、文を時系列データとみなし、トレンドや周期性を識別する可能性を模索した。伝統的な時系列分析は仮定が厳しいために、文長の変動を捕捉するのは難しかった。そこで仮定の緩やかな状態空間モデルを適用したところ、かなりよくフィットすることが可能であった。しかし、対象とした書き手それぞれの作品ごとにトレンドや周期性は変動し、何らかの層（書き手ないしジャンル）に固有の指標を識別することはできなかった。ただし、本研究で独自に電子化したライトノベルでは、きわめて類似したトレンドが確認できた。なお、本研究の成果から得た発想を、令和2年３月に刊行した一般書である『実践 R によるテキストマイニング』森北出版の執筆に活用している。

研究成果
(1件)

すべて図書 (1件)

[図書] 実践 Rによるテキストマイニング2020
- 著者名/発表者名
  石田基広
- 総ページ数
  160
- 出版者
  森北出版
- ISBN
  978-4-627-88511-0