• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

A Study of Stylistic Change in Japanese Based on Data Science and Modeling of its Structure

Research Project

Project/Area Number 18K00627
Research InstitutionDoshisha University

Principal Investigator

金 明哲  同志社大学, 文化情報学部, 教授 (60275469)

Co-Investigator(Kenkyū-buntansha) 山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywords文体変化 / モデリング / コーパス作成 / 正則化回帰 / ランダムフォレスト
Outline of Annual Research Achievements

本研究の目的は,小説文に焦点を当て,データサイエンスの手法を用いて近現代文学作品の文体変化およびその構造をモデリングし,近未来の文体の変化のトレンドを予測する.また,変化要素について文体学および言語学の側面から分析を試みる.
本研究では100年以上(1905~2015年)の間に文体および言語の使用がどのように変遷しているかを分析するため,まず用いるコーパスの作成を行った.コーパスは100年以上にわたる膨大な小説から,1年ごと約5名ずつの代表的な作家の作品をサンプリングし,作成した.完成したコーパスは592人の592篇作品で,総文字数は9557078である.具体的には,青空文庫・電子文芸館から175人の175篇の作品,それ以外の417篇は紙媒体をOCRで電子化し,クリーニングを行った.
次に,作成したコーパスについて,自然言語処理技術を用いて,形態素解析や構文解析を行い,集計分析を進めている.文体の変化を進化という視点で系統分析,モデリングの視点で正則化回帰モデル法,ランダムフォレスト回帰,構造的トピックモデル,深層学習のアプローチからはBERTによるベクトル埋め込みなどを駆使して研究を行っている.その結果,各々助詞の使用率を用いたモデリングが高い精度で可能であることが分かった.それをまとめた「モデリングから見る小説における助詞の経時変化」が査読付きの学会論文として採択された.そのほか,文末表現パターン,接続助詞などについても分析を進めている.

  • Research Products

    (23 results)

All 2021 2020

All Journal Article (8 results) (of which Int'l Joint Research: 3 results,  Peer Reviewed: 8 results,  Open Access: 2 results) Presentation (11 results) Book (4 results)

  • [Journal Article] 明暗』と『続明暗』のトピック変化の計量分析2021

    • Author(s)
      李 広微, 金 明哲
    • Journal Title

      計量国語学

      Volume: 38 Pages: 469-505

    • Peer Reviewed
  • [Journal Article] 日本語における機能フレーズを特徴量とした著者識別2020

    • Author(s)
      黄 善玉, 金 明哲
    • Journal Title

      報知識学会誌

      Volume: 30 Pages: 390-400

    • Peer Reviewed
  • [Journal Article] 菊池寛「受難華」の代筆問題の研究2020

    • Author(s)
      柳 燁佳, 金 明哲
    • Journal Title

      データ分析の理論と応用

      Volume: 9 Pages: 1-11

    • Peer Reviewed
  • [Journal Article] テキストコーパスマイニングツールMTMineR2020

    • Author(s)
      金 明哲, 鄭 弯弯
    • Journal Title

      計量国語学

      Volume: 32 Pages: 265-276

    • Peer Reviewed
  • [Journal Article] The effects of class imbalance and training data size on classifier learning: an empirical study.2020

    • Author(s)
      Wanwan Zheng, Mingzhe Jin
    • Journal Title

      SN Computer Science

      Volume: 1 Pages: 1-13

    • DOI

      10.1007/s42979-020-0074-0

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Classification Analysis of Kouji Uno’s Novels Using Topic Model2020

    • Author(s)
      Xueqin Liu, Mingzhe Jin
    • Journal Title

      Behaviormetrika

      Volume: 47 Pages: 189-212

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] コーパスを用いた仮定形音融合使用に関する計量的研究2020

    • Author(s)
      入江 さやか, 金 明哲
    • Journal Title

      国立国語研究所論集

      Volume: 18 Pages: 1-16

    • Peer Reviewed / Open Access
  • [Journal Article] Comparing Multiple Categories of Feature Selection Methods for Text Classification2020

    • Author(s)
      Wanwan Zheng, Mingzhe Jin
    • Journal Title

      Digital Scholarship in the Humanities

      Volume: 35 Pages: 208-224

    • Peer Reviewed / Int'l Joint Research
  • [Presentation] The Effectiveness of Maximal Information Coefficient in Real-world Classification Tasks2020

    • Author(s)
      Y. Chen, W. Zheng and M. Jin
    • Organizer
      日本分類学会第39回大会
  • [Presentation] 文字起こしデータを用いた話者識別2020

    • Author(s)
      柳 燁佳, 金 明哲
    • Organizer
      日本分類学会第39回大会
  • [Presentation] 構造的トピックモデルによる近現代小説の文体変化の考察2020

    • Author(s)
      李 広微, 金 明哲
    • Organizer
      計量国語学会第64回大会
  • [Presentation] A Fast Class Noise Detector with Multi-factor-based Learning2020

    • Author(s)
      W. Zheng, M. Jin
    • Organizer
      2020年度統計関連学会連合大会
  • [Presentation] 構造トピックモデルを用いた文体変化の経時的分析2020

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      2020年度統計関連学会連合大会
  • [Presentation] 異なるジャンルの文章が教材する場合における著者識別分析2020

    • Author(s)
      柳 燁佳, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Presentation] テキストマイニングによる企業倒産分析2020

    • Author(s)
      許 麗夢, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Presentation] 想起されたフレーズの長さから読み解く宇野浩二の文体変化2020

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Presentation] トピックモデルに基づいた現代小説の接続表現の分析2020

    • Author(s)
      李 広微, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Presentation] 構文情報に基づく中国語文章の著者識別.2020

    • Author(s)
      李 芸萱, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Presentation] 茶杓造形の計量分析―薮内家の茶杓系統について2020

    • Author(s)
      耕三寺 華蓮, 金 明哲
    • Organizer
      第48回日本行動計量学会
  • [Book] テキストアナリティクスの基礎と実践2021

    • Author(s)
      金 明哲
    • Total Pages
      340
    • Publisher
      岩波書店
    • ISBN
      4000298968
  • [Book] 文学と言語コーパスのマイニング2021

    • Author(s)
      金 明哲、中村 靖子、上阪 彩香、土山 玄、孫 昊、劉 雪琴、李 広微、入江 さやか
    • Total Pages
      248
    • Publisher
      岩波書店
    • ISBN
      4000299026
  • [Book] 金融・経済分析のためのテキストマイニング2021

    • Author(s)
      和泉 潔、坂地 泰紀、松島 裕康
    • Total Pages
      172
    • Publisher
      岩波書店
    • ISBN
      4000299018
  • [Book] テキストマイニングの基礎技術と応用2020

    • Author(s)
      那須川 哲哉、吉田 一星、宅間 大介、鈴木 祥子、村岡 雅康、小比田 涼介
    • Total Pages
      286
    • Publisher
      岩波書店
    • ISBN
      4000298976

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi