• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

データサイエンスに基づいた日本文体変化分析とその構造のモデリング

Research Project

Project/Area Number 18K00627
Research InstitutionDoshisha University

Principal Investigator

金 明哲  同志社大学, 文化情報学部, 教授 (60275469)

Co-Investigator(Kenkyū-buntansha) 山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsコーパス / 文体変化 / モデリング / テキストアナリシス / 計量文献学
Outline of Annual Research Achievements

2019年度は,研究の基礎材料となるコーパスの完成を目指した。本研究では100年以上(1905~2015年)にわたる膨大の近現代小説から,1年ごとに3名ずつの代表的な作家・作品(330作品)をサンプリングし,電子コーパス作成を計画したが,信頼性を高めるため,作品の数を増やす方向でコーパス作成の作業を進めた。
昨年度は青空文庫・電子文芸館から175人の175篇の作品,紙媒体の作品をOCRで入力する方法で作品171篇の作品を電子化し,その誤りの訂正などを行った。2019年度は紙媒体の作品をOCRで入力する方法で246人の246篇の作品を電子化し,その誤りなどを修正し,コーパスを拡張した。2019年度まで完成したコーパスは592人の592篇作品で,その総文字数は9557078である。毎年約5人の作家の作品を分析に用いることができ,研究計画書の3人を上回る結果になっている。
また,コーパスを作成しながら,経時的分析方法を試み,その結果を国内外の研究会で発表を行った。モデリングには正則化回帰モデルや構造的トピックモデルなどを駆使してモデリングを試みている。
なお,計量文献学やテキストアナリティクスに関する研究,個人文体の変化,文体素の抽出方法の開発,文体素の選択方法および分析方法の開発,文体計量分析法による代筆疑惑の研究,犯行声明文などの分析と書き手の特徴分析などに関する研究も行い,その成果を国内外の研究会,研究論文誌にて公開した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

用いるテキストのサイズの見直しや作業の効率化などにより、より多くの標本を扱うことになった。

Strategy for Future Research Activity

次年度は,国内外の関連研究を十分収集し,その最新の研究成果を踏まえて,作成したコーパスを用いて,形態素解析,構文解析の機械的解析の誤りについて修正を加えながら,データ分析を繰り返す。具体的には,文の長さ,品詞の構成率およびその接続関係,形態素のn-gramなどについて,データ解析およびモデルの構築とその結果の比較分析を繰り返す。
データのモデリング方法に関しては数多く提案されているが,どのような方法が本コーパスに最も適するかに関しては不明であるため実証に頼るしかない。それには多くの時間が必要であると予想される。
また,近年テキストの構造をモデリングする構造的トピックモデルのような方法も利用可能になっている。ただし,この方法でモデリングを行うためにはトピックの数を事前に決めることが必要であり,それに関してもいろいろの方法が提案されているが,広く認知されている方法がない。このような,問題点を解決しながら本研究の最終ゴールに向かって着実に研究を推進する。
なお,本研究と関連する周辺の研究を進めることで,本研究をさらに推進させる相乗効果も考えられるので,社会文体に並んで今まで進めてきた個人文体の研究も積極的に引き続き推進し,文体素の抽出やそのデータ分析の方法とツールの開発・拡充を行う。得られた成果はホームページを用いて広く公開する。

Causes of Carryover

コロナウイルス関連で研究会が中止されたため、予定した旅費が使用されなかった。2020年の研究旅費とアルバイトの謝礼に用いることにする。

  • Research Products

    (14 results)

All 2020 2019

All Journal Article (7 results) (of which Int'l Joint Research: 6 results,  Peer Reviewed: 6 results) Presentation (6 results) (of which Int'l Joint Research: 5 results) Book (1 results)

  • [Journal Article] Classification analysis of Kouji Uno’s novels using topic model2020

    • Author(s)
      X. Liu, M. Jin
    • Journal Title

      Behaviormetrika

      Volume: 47 Pages: 189-212

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] コーパスを用いた仮定形音融合使用に関する計量的研究2020

    • Author(s)
      入江 さやか , 金 明哲
    • Journal Title

      国立国語研究所論集/NINJAL Research Papers

      Volume: 18 Pages: 1-16

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] データ処理のためのプログラミング言語[Ⅲ]-R言語編-(Enjoy Data Processing[Ⅲ]: R Language)2019

    • Author(s)
      金 明哲
    • Journal Title

      電子情報通信学会誌

      Volume: 102(8) Pages: 822-828

  • [Journal Article] 統計解析からみた小説『続明暗』の文体模倣2019

    • Author(s)
      李 広微, 金 明哲
    • Journal Title

      計量国語学

      Volume: 32(1) Pages: 19-32

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] 方言録音文字化資料における拍bigramから見た方言分類―岐阜・愛知方言の所属は東か西か―2019

    • Author(s)
      入江 さやか, 金 明哲
    • Journal Title

      計量国語学

      Volume: 32(1) Pages: 1-18

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] 文体の個人差と個人内恒常性の検証―階層的ベイズモデルによる学術論文の比較―2019

    • Author(s)
      財津 亘, 金 明哲
    • Journal Title

      行動計量学

      Volume: 46(2) Pages: 87-95

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Comparing multiple categories of feature selection methods for text classification2019

    • Author(s)
      W. Zheng and M. Jin
    • Journal Title

      Digital Scholarship in the Humanities

      Volume: 35(1) Pages: 208-224

    • DOI

      https://doi.org/10.1093/llc/fqz003

    • Peer Reviewed / Int'l Joint Research
  • [Presentation] Effects of Training Data Size and Class Imbalance on the Performance of Classifiers2019

    • Author(s)
      W. Zheng, M. Jin
    • Organizer
      Artificial Intelligence and Natural Language(8th Conference, AINL 2019
    • Int'l Joint Research
  • [Presentation] FTA: a novel feature training approach for classification2019

    • Author(s)
      W. Zheng, M. Jin
    • Organizer
      Proceedings of 33rd Pacific Asia Conference on Language,
    • Int'l Joint Research
  • [Presentation] Ghostwriting Analysis Using Outlier Detection methods2019

    • Author(s)
      H. Sun , M. Jin
    • Organizer
      Language and literature 2020
    • Int'l Joint Research
  • [Presentation] Diachronic changes of sentence-final expression in modern Japanese novels2019

    • Author(s)
      G. Li and M. Jin
    • Organizer
      International Islamic University Malaysia,
    • Int'l Joint Research
  • [Presentation] Improving the performance of Japanese authorship attribution with phonetic related information2019

    • Author(s)
      H. Sun , M. Jin
    • Organizer
      16th Conference of the International Federation of Classification Societies
    • Int'l Joint Research
  • [Presentation] 過去百年間における小説の文体変容についての定量的分析2019

    • Author(s)
      李 広微, 金 明哲
    • Organizer
      第47回日本行動計量学会
  • [Book] 文化情報学事典2019

    • Author(s)
      村上征勝監修・金明哲・他 編
    • Total Pages
      832
    • Publisher
      勉誠出版
    • ISBN
      978-4-585-20071-0,

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi