• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

工学的テクストマイニング技術を応用した19世紀英語の計量文体研究

Research Project

Project/Area Number 23500298
Research InstitutionOsaka University

Principal Investigator

田畑 智司  大阪大学, 言語文化研究科(研究院), 准教授 (10249873)

Keywords計量文体分析 / 文体 / 近代英語 / 19世紀 / 統計学的マイニング / コーパスマイニング / 著者識別指標 / 文体指標
Research Abstract

平成24年度は,主成分分析や対応分析,クラスター分析等の代表的ツールに加えてRandom Forests,Bootstrapping法を応用した文体指標,著者識別指標の抽出法の研究に取り組んだ。Random Forestsに関しては,7月にハンブルク大学にて開催された国際会議Digital Humanities 2013において,Approaching Dickens's Style through Random Forestsと題した研究発表を行い,19世紀英国の作家Charles Dickensの言語研究を行う上でRandom Forestsを応用した文体分析法が極めて有効であることを示した。また,9月20日に北海道大学で開催され統計数理研究所共同利用研究班合同報告会では,キーワード分析とテクスト統計と題する発表を行い,コーパス言語学の分野で定石とされている対数尤度比検定に基づくコーパスの特徴語抽出法に比べ,Bootstrapping法に基づく手法の方がより効率よく,burstyな語彙項目をフィルタリングすることができることを示した。さらに年度の研究成果を総括する研究発表の場として,3月28日に統計数理研究所にて開催された言語研究と統計2013において,Too many suspects, too much burstiness: A meta-analysis of key-word-detection statistics for stylometryと題する研究発表を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

これまでのところ,ほぼ計画通りに研究が進展しており,計画した5段階の進捗目標:
(1) 一次資料としての19世紀英語コーパス(+対照コーパス)の整備,テクスト処理実験試行,(2) 統計学的文体分析アルゴリズムの研究およびRによる分析器プロトタイプ開発,(3) さまざまな分析手法によるデータ解析・視覚化,解析結果の比較検討,(4) 最適化した分析法による19世紀英語コーパス分析結果の言語文化学的考察,有効性の検証,(5) 成果発表およびコーパス・文体研究用のWeb アプリケーションの公開
のうち,(3)までをほぼ完了し,すでに(4)に取り掛かっている。
また,この成果の一部を報告した研究発表はいずれも高い評価をうけている。以上のことから,研究の進捗状況は順調であるといえる。

Strategy for Future Research Activity

(1) 最適化した分析法による19世紀英語コーパス分析結果の言語文化学的考察,有効性検証
大規模コーパスの文体分析に最適化した分析プログラムを完成させ,本格的なコーパス分析研究を開始する。言語項目間の(共起)関係,テクストの相互関係,そして語彙項目の生起パターンとテクストとの相互関係を多次元空間に投影し,視覚化する。一連のコーパス分析の結果を通時的視点・共時的視点(使用域間変異)の両面から捉え文体論的考察を展開する。
(2) 研究成果の取りまとめ,成果データ・コーパス・文体分析用Webアプリケーション公開
発展させた研究の成果をPALA 2013またはコーパス言語学の国際会議PACLIC 2013などで発表する。三年間の研究計画で得た成果を報告書(PDF)にまとめる。研究計画の遂行過程で開発するコーパスや,文体分析アプリケーションは連携関係にある統計数理研究所,CCH, King’s College London (英国),Oulu大学(フィンランド), Newcastle大学 (豪州)の研究者との共同研究に活用する。これにより,他の研究者にこの研究資産を提供すると同時に,利用者からのフィードバックをコーパスや解析法の修正・改良に反映させて,質的により完成度の高い計量的分析モデルの確立を目指す。

Expenditure Plans for the Next FY Research Funding

次年度の研究費はDigital Humanities 2013ならびにPALA 2013, PACLIC 2013などの主要な国際会議への出張旅費ならびにサーバ用コンピュータ,アプリケーションのライセンス購入ならびに研究を補助する消耗品の購入に充当する。

  • Research Products

    (6 results)

All 2013 2012

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (4 results)

  • [Journal Article] Approaching Dickens's Style through Random Forests2012

    • Author(s)
      Tabata. Tomoji
    • Journal Title

      Digital Humanities 2012 Conference Abstracts

      Volume: 2012 Pages: 388--391

    • Peer Reviewed
  • [Journal Article] 「テクストマイニングからテクスト分析へ:Collinsとの共著作品におけるDickensの文体」2012

    • Author(s)
      田畑 智司
    • Journal Title

      『電子化言語資料分析研究2011--2012』

      Volume: 2012 Pages: 3--18

  • [Presentation] Too many suspects, too much burstiness: A meta-analysis of key-word-detection statistics for stylometry2013

    • Author(s)
      田畑 智司
    • Organizer
      言語研究と統計2013
    • Place of Presentation
      統計数理研究所
    • Year and Date
      20130327-20130328
  • [Presentation] キーワード分析とテクスト統計2012

    • Author(s)
      田畑 智司
    • Organizer
      統計数理研究所共同利用研究班合同報告会
    • Place of Presentation
      北海道大学
    • Year and Date
      20120920-20120920
  • [Presentation] Digital Enhancements to the Dickens Lexicon2012

    • Author(s)
      Tabata, Tomoji
    • Organizer
      Dickens Fellowship Bicentennial International Conference 2012
    • Place of Presentation
      University of Portsmouth, UK
    • Year and Date
      20120809-20120814
  • [Presentation] Approaching Dickens's Style through Random Forests2012

    • Author(s)
      Tabata, Tomoji
    • Organizer
      Digital Humanities 2012
    • Place of Presentation
      University of Hamburg, Germany
    • Year and Date
      20120716-20120722

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi