研究課題/領域番号 |
23500298
|
研究機関 | 大阪大学 |
研究代表者 |
田畑 智司 大阪大学, 言語文化研究科(研究院), 准教授 (10249873)
|
キーワード | 計量文体分析 / 文体 / 近代英語 / 19世紀 / 統計学的マイニング / コーパスマイニング / 著者識別指標 / 文体指標 |
研究概要 |
平成24年度は,主成分分析や対応分析,クラスター分析等の代表的ツールに加えてRandom Forests,Bootstrapping法を応用した文体指標,著者識別指標の抽出法の研究に取り組んだ。Random Forestsに関しては,7月にハンブルク大学にて開催された国際会議Digital Humanities 2013において,Approaching Dickens's Style through Random Forestsと題した研究発表を行い,19世紀英国の作家Charles Dickensの言語研究を行う上でRandom Forestsを応用した文体分析法が極めて有効であることを示した。また,9月20日に北海道大学で開催され統計数理研究所共同利用研究班合同報告会では,キーワード分析とテクスト統計と題する発表を行い,コーパス言語学の分野で定石とされている対数尤度比検定に基づくコーパスの特徴語抽出法に比べ,Bootstrapping法に基づく手法の方がより効率よく,burstyな語彙項目をフィルタリングすることができることを示した。さらに年度の研究成果を総括する研究発表の場として,3月28日に統計数理研究所にて開催された言語研究と統計2013において,Too many suspects, too much burstiness: A meta-analysis of key-word-detection statistics for stylometryと題する研究発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでのところ,ほぼ計画通りに研究が進展しており,計画した5段階の進捗目標: (1) 一次資料としての19世紀英語コーパス(+対照コーパス)の整備,テクスト処理実験試行,(2) 統計学的文体分析アルゴリズムの研究およびRによる分析器プロトタイプ開発,(3) さまざまな分析手法によるデータ解析・視覚化,解析結果の比較検討,(4) 最適化した分析法による19世紀英語コーパス分析結果の言語文化学的考察,有効性の検証,(5) 成果発表およびコーパス・文体研究用のWeb アプリケーションの公開 のうち,(3)までをほぼ完了し,すでに(4)に取り掛かっている。 また,この成果の一部を報告した研究発表はいずれも高い評価をうけている。以上のことから,研究の進捗状況は順調であるといえる。
|
今後の研究の推進方策 |
(1) 最適化した分析法による19世紀英語コーパス分析結果の言語文化学的考察,有効性検証 大規模コーパスの文体分析に最適化した分析プログラムを完成させ,本格的なコーパス分析研究を開始する。言語項目間の(共起)関係,テクストの相互関係,そして語彙項目の生起パターンとテクストとの相互関係を多次元空間に投影し,視覚化する。一連のコーパス分析の結果を通時的視点・共時的視点(使用域間変異)の両面から捉え文体論的考察を展開する。 (2) 研究成果の取りまとめ,成果データ・コーパス・文体分析用Webアプリケーション公開 発展させた研究の成果をPALA 2013またはコーパス言語学の国際会議PACLIC 2013などで発表する。三年間の研究計画で得た成果を報告書(PDF)にまとめる。研究計画の遂行過程で開発するコーパスや,文体分析アプリケーションは連携関係にある統計数理研究所,CCH, King’s College London (英国),Oulu大学(フィンランド), Newcastle大学 (豪州)の研究者との共同研究に活用する。これにより,他の研究者にこの研究資産を提供すると同時に,利用者からのフィードバックをコーパスや解析法の修正・改良に反映させて,質的により完成度の高い計量的分析モデルの確立を目指す。
|
次年度の研究費の使用計画 |
次年度の研究費はDigital Humanities 2013ならびにPALA 2013, PACLIC 2013などの主要な国際会議への出張旅費ならびにサーバ用コンピュータ,アプリケーションのライセンス購入ならびに研究を補助する消耗品の購入に充当する。
|