• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Machine-learning Approaches to Corpus Stylistics: Towards the Creation of International Collaborative Network

Research Project

Project/Area Number 18H00675
Research InstitutionOsaka University

Principal Investigator

田畑 智司  大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10249873)

Project Period (FY) 2018-04-01 – 2022-03-31
Keywordsトピックモデル / 文体 / 小説言語 / 機械学習 / 国際連携 / コーパス文体論 / フォーラム / ワードエンベディング
Outline of Annual Research Achievements

平成30年度は,研究基盤を確立するために,まずコーパスの質的精緻化を追求した。これまでの研究で編纂した通史的文体研究用参照コーパス(ORCHIDS)のコーパスデザインに修正を施し,各サブコーパスができるだけ,18, 19世紀を代表する作家の作品を収録する構成に改訂した。各テクストはマークアップ言語XMLを用い,TEI P5に準拠するマークアップ(構造標識化)を施した。一方,言語的アノテーションについては,British National Corpusで採用されているCLAWS C5タグセットのパラミターファイルを用いて,テクストの全単語にTreeTaggerで品詞標識を付与した。このように,コーパス文体論研究に特化したコーパスに対し,抽出トピック数,iteration回数,hyperparameter最適化条件,テクスト分割サイズなどの設定条件を様々に変化させたトピックモデリング実験を繰り返し行うことにより,最適な条件を求めた。今年度は特に身体部位表現がどのようなトピックを構成しているか,またそのようなトピックの経年変化の相を視覚化するための分析に重点を置いて研究を進めた。この研究と並行して,ワードエンベディング法による近傍語群の推定実験を実施した。ORCHIDS全体ならびに各サブコーパスごとのモデル構築を行い,ディケンズサブコーパスを特徴付ける近傍語群推定を行った。得られた成果の一部は,国際文体論学会PALA2019で発表したほか,英語コーパス学会第44回大会,文体論学会,言語研究と統計2019などで口頭発表や講演として発表した。他方,コーパス文体論の国際連携基盤創成のまず最初のステップとして,3月に国内外を代表するコーパス文体論研究者5名を招聘し,Osaka Symposium on Corpus Stylisticsを開催できたことは今年度の大きな収穫であった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

予定していたコーパスの整備計画,これまでの研究成果の発表もほぼ計画通りに実施してきた。3月に開催したOsaka Symposium on Corpus Stylisticsでは,国内外から先端的なコーパス文体論研究者を招聘し,最新の研究情報の交換を行うとともに,今後の共同研究,国際連携へ向けた意見交換を行うことができ,次年度以降の研究計画への推移がスムーズにできる状況ができている。

Strategy for Future Research Activity

今後の研究計画では,topic modeling と word vectorsを活用した大規模コーパス分析方法論を開発し,18世紀・19世紀の代表的作品テクスト250点(総語数4,000万語超)を収録した後期近代英語フィクションコーパスを横断的に分析する。それにより,特定の作家やテクストと結びついている局所的トピック(共起語群)や特徴語,局所近傍語群(関連語クラスター)を特定する一方,コーパス全体を通して観察可能な遍在的トピックや近傍語群,作品ジャンルと密接に関連したトピックや関連語クラスターを明らかにする。マクロ的観点からは,コーパスに内在する通時的言語変異の相を反映する潜在的トピックや近傍語群を特定し,それらの分布,密度等を数量化したデータをもとに,樹状図やネットワークグラフ,ヒートマップなどの視覚化ツールを駆使して後期近代英語フィクションの系統を可視化する。得られた知見の有効性を検証し,次の段階の研究計画へのシームレスな移行発展につなげるために,関連する研究領域で優れた成果を上げている国内外の研究者との協力関係を強化し,国際連携基盤の確立へ向けた取り組みを加速化する。そのために,Digital Humanitiesの国際年次大会,国際文体論学会(PALA)の年次大会での研究発表を継続し,将来的な研究協力者や共同研究者の開拓を進める一方で,Osaka Symposium on Corpus Stylistics, ならびにコーパス文体論フォーラムを継続的に開催し,機械学習モデルに基づくコーパス文体論研究の拠点を形成していく予定である。

  • Research Products

    (11 results)

All 2019 2018 Other

All Int'l Joint Research (1 results) Journal Article (2 results) Presentation (7 results) (of which Int'l Joint Research: 3 results,  Invited: 2 results) Book (1 results)

  • [Int'l Joint Research] University of Wurzburg/University of Trier(ドイツ)

    • Country Name
      GERMANY
    • Counterpart Institution
      University of Wurzburg/University of Trier
  • [Journal Article] Mapping Dickens’s Style in the Network of Words, Topics, and Texts2018

    • Author(s)
      Tomoji Tabata
    • Journal Title

      テクストマイニングと デジタルヒューマニティーズ 2017

      Volume: 2018 Pages: 51--60

  • [Journal Article] Digital Humanities: デジタルで拡張する言語文化学研究2018

    • Author(s)
      田畑 智司
    • Journal Title

      テクストマイニングと デジタルヒューマニティーズ 2017

      Volume: 2018 Pages: 61--90

  • [Presentation] Corpus approach to semantic style: Body language, n-grams, and topics2019

    • Author(s)
      Tomoji Tabata
    • Organizer
      Osaka Symposium on Corpus Stylistics
    • Int'l Joint Research
  • [Presentation] Word Vectors and Semantic Style in Classic Fiction2019

    • Author(s)
      田畑 智司
    • Organizer
      「言語研究と統計2019」
  • [Presentation] Dickens in Vector Space: Word Embeddings and Semantic Profiling of Style2018

    • Author(s)
      Tomoji Tabata
    • Organizer
      Poetics And Linguistics Association (PALA) 2018
    • Int'l Joint Research
  • [Presentation] Collaborative Texts under a Stylometric Microscope: Investigating Texts of Mixed Authorship2018

    • Author(s)
      Tomoji Tabata
    • Organizer
      英語コーパス学会第44回大会
  • [Presentation] Lexical Diversity in Classic British Fiction2018

    • Author(s)
      Tomoji Tabata
    • Organizer
      Osaka-Wurzburg Collaborative Workshop: Cross-Linguistics Perspectives on Complexity in Literary Texts
    • Int'l Joint Research
  • [Presentation] Stylometry and Classic British Fiction2018

    • Author(s)
      田畑 智司
    • Organizer
      日本文体論学会第114回大会
    • Invited
  • [Presentation] デジタルが変える「読み」― テクスト、データ、ディスタントリーディング ―2018

    • Author(s)
      田畑 智司
    • Organizer
      Galeシンポジウム2018「デジタル人文学への誘い」
    • Invited
  • [Book] テクストマインニングとデジタルヒューマニティーズ20172018

    • Author(s)
      田畑 智司,杉山 真央,土村 成美
    • Total Pages
      90
    • Publisher
      大阪大学大学院言語文化研究科

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi