• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

データサイエンスに基づいた日本文体変化分析とその構造のモデリング

Research Project

Project/Area Number 18K00627
Research InstitutionDoshisha University

Principal Investigator

金 明哲  同志社大学, 文化情報学部, 教授 (60275469)

Co-Investigator(Kenkyū-buntansha) 山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywords文体 / コーパス / データサイエンス / テキストマイニング
Outline of Annual Research Achievements

本研究では,近現代の文体について,データサイエンスの手法で変化の有無およびその要因分析とその構造をモデリングすることを目的としている。
平成30年度は、主に研究の基礎材料となるコーパス作成を行った。本研究では,1905~2015年の小説の社会的文体を研究対象としている。研究にあたり,まず 100年以上にわたる膨大の近現代小説から,1年ごとに3名ずつの代表的な作家・作品(330作品)をサンプリングし,作業を進めた。平成30年度では、青空文庫・電子文芸館から175人の175編をダウンロードし整形を行った。その文字数は3,506,247である。また、紙媒体の作品をOCRで入力した。その作品は171人の171編であり、文字数は2,801,580である。なお、コーパスを作成しながら、分析方法を模索し、分析を試みた。その成果の一部は国内の学会や国際学会で発表を行った。
上記と並行して個人文体の変化、文体素の抽出方法の開発、文体素の選択方法および分析方法の開発、文体計量分析法による代筆疑惑の研究、犯行声明文などの分析と書き手の特徴分析などに関する研究も行い、その成果を国内外の研究会、研究論文誌にて公開した。さらに、「テキストマイニング2018」のシンポジュームを開催した。初日は研究交流会、翌日は研究交流とテキストマイニングの講習会を併設した。参加人数は100人を超えている。その詳細のコンテンツはホームページで公開している(https://www1.doshisha.ac.jp/~mjin/lab/TM2018.html)。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

研究実績の概要で述べたように、346編の作品、約6,307,827文字のコーパスを完成している。コーパスの作成の進捗状況は、計画より順調に進んでいる。作品の数が計画より早く上回っているのは、紙媒体の作品をOCRで入力する長編小説については全文ではなく、必要充分であると考えられる1万3千字を目途にして入力したのが一つ要因である。これは、本研究チームによる文体素が安定する文章の長さに関する研究成果を応用したものであり、組織的にかつ科学的手法に基づいた結果である。

Strategy for Future Research Activity

次年度には、平成30年度に作成したコーパスに、さらに150~210編の作品を追加し、形態素解析、構文解析用のデータベースを作成し、分析の材料の完成を目指す。作品数は、計画した330作品から550編に増やすことを目標とする。コーパスを拡充しながら随時形態素解析、構文解析を進め機械解析結果の誤りの修正の対策などについて研究を進める。これらの作業に並行し、次年度には文体素の抽出に関する研究とプログラムの開発、分析やモデリングの方法について検討を続けながら分析を試みる。それらを体系化ができれば,完成されたコーパスを用いた今後の研究の発展に寄与できる.
また、類似な研究が他国では研究計画が進んでいるか、またどのような方法で行っているかに関する研究動向を把握し、最新の研究方法を取り組み、研究を進めることにする。
なお、本研究と関連する周辺の研究を進めることで、本研究をさらに推進させる相乗効果も考えられるので、社会文体に並んで今まで進めてきた個人文体の研究も積極的に引き続き推進し、文体素の抽出やそのデータ分析の方法とツールの開発・拡充を行いたいと考えている.
得られた研究成果は引き続き積極的に国内外に情報発信していく予定である。

Causes of Carryover

分担者の病気などで予定された研究出張などが実現できなかった。
今年度は、よりアクティブに研究を推進するよう企画します。

Remarks

「テキストマイニング2018」のシンポジュームを開催した。初日は研究交流会、翌日は研究交流とテキストマイニングの講習会を併設した。参加人数は100人を超えている。

  • Research Products

    (38 results)

All 2019 2018 Other

All Journal Article (8 results) (of which Peer Reviewed: 8 results) Presentation (27 results) (of which Int'l Joint Research: 10 results) Book (2 results) Remarks (1 results)

  • [Journal Article] トピックモデルによる関西私鉄沿線の特徴分析2019

    • Author(s)
      前田 侑亮, 金 明哲
    • Journal Title

      情報知識学会誌

      Volume: 29(1) Pages: 3-22

    • Peer Reviewed
  • [Journal Article] A comparative study of feature selection methods2018

    • Author(s)
      W. Zheng and M. Jin
    • Journal Title

      International Journal on Natural Language Computing

      Volume: 7(5) Pages: 1-9

    • Peer Reviewed
  • [Journal Article] 性別を偽装した文章における文体的特徴変化2018

    • Author(s)
      財津 亘・金 明哲
    • Journal Title

      同志社大学ハリス理化学研究報告

      Volume: 59(3) Pages: 47-54

    • Peer Reviewed
  • [Journal Article] パソコン遠隔操作事件で調著者識別による犯人性立証は可能だったか?2018

    • Author(s)
      財津 亘・金 明哲
    • Journal Title

      情報知識学会誌

      Volume: 28(3) Pages: 2530258

    • Peer Reviewed
  • [Journal Article] 文末語の使用率に基づいた筆者識別―探索的多変量解析の実施と分析結果に対すスコアリングによる検討―2018

    • Author(s)
      財津 亘・金 明哲
    • Journal Title

      計量国語学

      Volume: 31(6) Pages: 417-425

    • Peer Reviewed
  • [Journal Article] 機械学習を用いた著者の年齢層推定―犯罪者プロファイリング実現に向けて―2018

    • Author(s)
      財津 亘・金 明哲
    • Journal Title

      同志社大学ハリス理化学研究報告

      Volume: 59(2) Pages: 57-65

    • Peer Reviewed
  • [Journal Article] テキストマイニングによる筆者識別の正確性ならびに判定手続きの標準化2018

    • Author(s)
      財津 亘・金 明哲
    • Journal Title

      行動計量学

      Volume: 45(1) Pages: 39-47

    • Peer Reviewed
  • [Journal Article] 川端康成小説『花日記』の代筆疑惑検証2018

    • Author(s)
      孫 昊, 金 明哲
    • Journal Title

      情報知識学会誌

      Volume: 28(1) Pages: 3-14

    • Peer Reviewed
  • [Presentation] コーパスを用いた仮定形における音韻融合使用と印象評定に関する研究2019

    • Author(s)
      入江さやか・金明哲
    • Organizer
      シンポジウム「日常会話コーパス」IV
  • [Presentation] Quantitative Analysis of Writing Style Problem in Yasunari Kawabata’s Novels.2018

    • Author(s)
      H. Sun and M. Jin
    • Organizer
      9th International Conference of Digital Archives and Digital Humanities
    • Int'l Joint Research
  • [Presentation] Collaborative Writing of Yasunari Kawabata's Novel Otome no minato.2018

    • Author(s)
      H. Sun and M. Jin
    • Organizer
      Proceedings of International Quantitative Linguistics Conference (QUALICO).
    • Int'l Joint Research
  • [Presentation] Ghostwriting problem of Yasunari Kawabata's Novel Soranokatakana.2018

    • Author(s)
      H. Sun and M. Jin
    • Organizer
      Digital Humanities Australia 2018
    • Int'l Joint Research
  • [Presentation] Evaluate Lexical Richness Measures Using Coefficient of Variation and Relative Value2018

    • Author(s)
      W. Zheng and M. Jin
    • Organizer
      19th International Conference on Computational Linguistics and Intelligent Text Processing
    • Int'l Joint Research
  • [Presentation] Comparing feature selection methods by using rank aggregation2018

    • Author(s)
      W. Zheng and M. Jin
    • Organizer
      16th IEEE International Conference on ICT and Knowledge Engineering
    • Int'l Joint Research
  • [Presentation] Do we need more samples for text classification?,2018

    • Author(s)
      W. Zheng and M. Jin
    • Organizer
      ACM Artifical Intelligene and Cloud Computing Conference
    • Int'l Joint Research
  • [Presentation] Feature analysis of paintings using color information of the image2018

    • Author(s)
      R. Yukimura, H. Sun,M. Jin
    • Organizer
      Digital Humanities Austria 2018
    • Int'l Joint Research
  • [Presentation] Classification of Osamu Dazai‘s works based on part-of-speech bigrams and usage of commas2018

    • Author(s)
      N. Oshiro, M. Jin, A. Kawase, H. Sun
    • Organizer
      Digital Humanities Austria 2018
    • Int'l Joint Research
  • [Presentation] Epoch changes of stylistic features in modern Japanese novels2018

    • Author(s)
      G. Li and M. Jin
    • Organizer
      Digital Humanities Austria 2018
    • Int'l Joint Research
  • [Presentation] Japanese Authorship Attribution Based on Sentence Pattern2018

    • Author(s)
      S. Huang and M. Jin
    • Organizer
      Digital Humanities Austria 2018
    • Int'l Joint Research
  • [Presentation] 太宰治の前期文体における芥川作品からの影響の有無について2018

    • Author(s)
      尾城 奈緒子, 金明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 文末表現に着目した文学作品の分類.2018

    • Author(s)
      尾城 奈緒子, 金明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Presentation] 絵画作品における色彩的特徴の計量的比較分析2018

    • Author(s)
      行村 隆平, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 絵画作品における色彩情報を用いた画家の識別2018

    • Author(s)
      行村 隆平, 金 明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Presentation] 判別分析による宇野浩二と同時代作家の比較分析2018

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] トピックモデルに基づく宇野浩二の創作時期についての検討2018

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Presentation] 宇野文学の計量分析ー同時代の作家との比較として2018

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      第32回日本計算機統計学会
  • [Presentation] 特徴選択方法の性能評価分析2018

    • Author(s)
      鄭 弯弯, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 現代日本語小説の文体的特徴の変化について-大正・昭和の作品を中心として-2018

    • Author(s)
      李 広微, 金明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 戦前・戦後の日本小説の分類とその特徴分析2018

    • Author(s)
      李 広微, 金明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Presentation] 方言録音文字化資料における拍bigramを用いたトピックモデルによる方言分類2018

    • Author(s)
      入江 さやか, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 音素を文体特徴量とした日本語著者識別2018

    • Author(s)
      孫 昊, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 著者識別における文型特徴量の有効性に関する比較分析2018

    • Author(s)
      黄 善玉, 柳 燁佳, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 文型に基づいた著者識別2018

    • Author(s)
      黄 善玉,金 明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Presentation] 日本語文学作品の著者識別におけるfastTextの性能の比較分析2018

    • Author(s)
      柳 燁佳, 金 明哲
    • Organizer
      第46回日本行動計量学会年次大会
  • [Presentation] 複数特徴量を用いた菊池寛代作問題の分類分析2018

    • Author(s)
      柳 燁佳, 金 明哲
    • Organizer
      2018年度日本分類学会シンポジウム
  • [Book] テキストアナリティクス2018

    • Author(s)
      金 明哲
    • Total Pages
      210
    • Publisher
      共立出版
    • ISBN
      978-4-320-11261-2
  • [Book] 犯罪捜査のためのテキストマイニング2018

    • Author(s)
      金 明哲 監修、財津 亘 著
    • Total Pages
      223
    • Publisher
      共立出版
    • ISBN
      978-4-320-12442-4
  • [Remarks] テキストマイニング2018

    • URL

      https://www1.doshisha.ac.jp/~mjin/lab/TM2018.html

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi