研究実績の概要 |
2019年度は,研究の基礎材料となるコーパスの完成を目指した。本研究では100年以上(1905~2015年)にわたる膨大の近現代小説から,1年ごとに3名ずつの代表的な作家・作品(330作品)をサンプリングし,電子コーパス作成を計画したが,信頼性を高めるため,作品の数を増やす方向でコーパス作成の作業を進めた。 昨年度は青空文庫・電子文芸館から175人の175篇の作品,紙媒体の作品をOCRで入力する方法で作品171篇の作品を電子化し,その誤りの訂正などを行った。2019年度は紙媒体の作品をOCRで入力する方法で246人の246篇の作品を電子化し,その誤りなどを修正し,コーパスを拡張した。2019年度まで完成したコーパスは592人の592篇作品で,その総文字数は9557078である。毎年約5人の作家の作品を分析に用いることができ,研究計画書の3人を上回る結果になっている。 また,コーパスを作成しながら,経時的分析方法を試み,その結果を国内外の研究会で発表を行った。モデリングには正則化回帰モデルや構造的トピックモデルなどを駆使してモデリングを試みている。 なお,計量文献学やテキストアナリティクスに関する研究,個人文体の変化,文体素の抽出方法の開発,文体素の選択方法および分析方法の開発,文体計量分析法による代筆疑惑の研究,犯行声明文などの分析と書き手の特徴分析などに関する研究も行い,その成果を国内外の研究会,研究論文誌にて公開した。
|
今後の研究の推進方策 |
次年度は,国内外の関連研究を十分収集し,その最新の研究成果を踏まえて,作成したコーパスを用いて,形態素解析,構文解析の機械的解析の誤りについて修正を加えながら,データ分析を繰り返す。具体的には,文の長さ,品詞の構成率およびその接続関係,形態素のn-gramなどについて,データ解析およびモデルの構築とその結果の比較分析を繰り返す。 データのモデリング方法に関しては数多く提案されているが,どのような方法が本コーパスに最も適するかに関しては不明であるため実証に頼るしかない。それには多くの時間が必要であると予想される。 また,近年テキストの構造をモデリングする構造的トピックモデルのような方法も利用可能になっている。ただし,この方法でモデリングを行うためにはトピックの数を事前に決めることが必要であり,それに関してもいろいろの方法が提案されているが,広く認知されている方法がない。このような,問題点を解決しながら本研究の最終ゴールに向かって着実に研究を推進する。 なお,本研究と関連する周辺の研究を進めることで,本研究をさらに推進させる相乗効果も考えられるので,社会文体に並んで今まで進めてきた個人文体の研究も積極的に引き続き推進し,文体素の抽出やそのデータ分析の方法とツールの開発・拡充を行う。得られた成果はホームページを用いて広く公開する。
|