2017 Fiscal Year Annual Research Report
Authorship attribution and stylometric analysis of Dickens's journals
Project/Area Number |
15K02600
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10249873)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 著者識別法 / 文体 / 計量文体分析 / ディケンズ / 視覚化 |
Outline of Annual Research Achievements |
研究計画最終年度の平成29年度は,申請者がこれまでに活用してきた伝統的な多変量解析に加え,Latent Dirichlet Allocation (潜在的ディリクレ配分法;LDA)に基づくトピックモデリングを文体分析に応用する方法論を研究した。LDAは確率論に基づき,コーパス中の潜在的意味構造を発見,抽出する分析モデルである。本研究では,LDAをマクロ的なトピックから,ミクロ的なトピックまで様々なレベルの意味的特徴をモデリングするように最適化を行った。それにより,従来のテクストグループ間のクラスタリング,識別のよりどころとして機能語を中心とする高頻度語を変数とする分析モデルに,新たに意味的なパラミターを加える可能性を検討した。語彙項目とトピックの複雑な関係性をネットワークグラフで可視化する共に,トピックとテクスト,あるいは著者との関係性を同様にネットワークグラフで視覚化し,さらにはテクストごと,作家ごとのトピック濃度をヒートマップグラフによって提示することで,LDAが著者識別,著者推定にも応用できる可能性を示すことができた。また,分析手法間の検出度の差異や特徴を明らかにするために,先行研究において著者推定における有効性が示されているNaive Bayes Classfifierや,Nearest Shrunken Centroids法 (Jockers & Witten, 2010),Support Vector Machine等の分類器のメタアナリシスを実施した。これらの研究成果は米国ウェストチェスター大学で開催された国際文体論学会PALA2017や,国際会議JADH2017,さらにはドイツ連邦ヴュルツブルクで行われたDARIAH-EU Expert Workshop on Distant Readingなどで発表した。
|