2013 Fiscal Year Annual Research Report
工学的テクストマイニング技術を応用した19世紀英語の計量文体研究
Project/Area Number |
23500298
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化研究科(研究院), 准教授 (10249873)
|
Keywords | 19世紀英語 / 文体 / テクストマイニング / 計量文体分析 / 通時文体論 |
Research Abstract |
平成25年度は,通時的文体研究を目的として編纂したコーパス Osaka Reference Corpus for Diachronic/Historical Stylistics (ORCHIDS) を基に計量文体分析の実践を進めた。具体的には,頻度上位30語から5000語迄の語彙層を変数に設定し,主成分分析や対応分析などに代表される多変量解析法を応用した計量モデルによる分析結果と,近年著しい進展を見せている機械学習のアルゴリズムを適用した工学的テクストマイニングの分析結果を比較検討した。 テクストの特徴を抽出する方法論は計量文体分析の基礎となる重要な基盤である。本研究では,従来コーパス言語学の分野で用いられてきた対数尤度比検定に基づく特徴語抽出法の問題点を明らかにし,問題の有効な解決策として,統計量に加え,効果量,変数重要度指標などを組み合わせた特徴語抽出モデルを提案した。各サブコーパスの特徴語を信頼度の高い手法で特定することにより,18世紀から19世紀に跨る通時的文体変化のみならず,サブコーパス内での文体の推移をも捉えることができるという本研究の重要な成果は,英語コーパス学会シンポジウム,PALA 2013(国際文体論学会2013年年次大会)や国際シンポジウムHumanities Studies in the Digital Age and the Role of Buddhist Studiesなどにおいて発表した。
|