研究課題/領域番号 |
18K00627
|
研究機関 | 同志社大学 |
研究代表者 |
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
|
研究分担者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 文体 / コーパス / データサイエンス / テキストマイニング |
研究実績の概要 |
本研究では,近現代の文体について,データサイエンスの手法で変化の有無およびその要因分析とその構造をモデリングすることを目的としている。 平成30年度は、主に研究の基礎材料となるコーパス作成を行った。本研究では,1905~2015年の小説の社会的文体を研究対象としている。研究にあたり,まず 100年以上にわたる膨大の近現代小説から,1年ごとに3名ずつの代表的な作家・作品(330作品)をサンプリングし,作業を進めた。平成30年度では、青空文庫・電子文芸館から175人の175編をダウンロードし整形を行った。その文字数は3,506,247である。また、紙媒体の作品をOCRで入力した。その作品は171人の171編であり、文字数は2,801,580である。なお、コーパスを作成しながら、分析方法を模索し、分析を試みた。その成果の一部は国内の学会や国際学会で発表を行った。 上記と並行して個人文体の変化、文体素の抽出方法の開発、文体素の選択方法および分析方法の開発、文体計量分析法による代筆疑惑の研究、犯行声明文などの分析と書き手の特徴分析などに関する研究も行い、その成果を国内外の研究会、研究論文誌にて公開した。さらに、「テキストマイニング2018」のシンポジュームを開催した。初日は研究交流会、翌日は研究交流とテキストマイニングの講習会を併設した。参加人数は100人を超えている。その詳細のコンテンツはホームページで公開している(https://www1.doshisha.ac.jp/~mjin/lab/TM2018.html)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究実績の概要で述べたように、346編の作品、約6,307,827文字のコーパスを完成している。コーパスの作成の進捗状況は、計画より順調に進んでいる。作品の数が計画より早く上回っているのは、紙媒体の作品をOCRで入力する長編小説については全文ではなく、必要充分であると考えられる1万3千字を目途にして入力したのが一つ要因である。これは、本研究チームによる文体素が安定する文章の長さに関する研究成果を応用したものであり、組織的にかつ科学的手法に基づいた結果である。
|
今後の研究の推進方策 |
次年度には、平成30年度に作成したコーパスに、さらに150~210編の作品を追加し、形態素解析、構文解析用のデータベースを作成し、分析の材料の完成を目指す。作品数は、計画した330作品から550編に増やすことを目標とする。コーパスを拡充しながら随時形態素解析、構文解析を進め機械解析結果の誤りの修正の対策などについて研究を進める。これらの作業に並行し、次年度には文体素の抽出に関する研究とプログラムの開発、分析やモデリングの方法について検討を続けながら分析を試みる。それらを体系化ができれば,完成されたコーパスを用いた今後の研究の発展に寄与できる. また、類似な研究が他国では研究計画が進んでいるか、またどのような方法で行っているかに関する研究動向を把握し、最新の研究方法を取り組み、研究を進めることにする。 なお、本研究と関連する周辺の研究を進めることで、本研究をさらに推進させる相乗効果も考えられるので、社会文体に並んで今まで進めてきた個人文体の研究も積極的に引き続き推進し、文体素の抽出やそのデータ分析の方法とツールの開発・拡充を行いたいと考えている. 得られた研究成果は引き続き積極的に国内外に情報発信していく予定である。
|
次年度使用額が生じた理由 |
分担者の病気などで予定された研究出張などが実現できなかった。 今年度は、よりアクティブに研究を推進するよう企画します。
|
備考 |
「テキストマイニング2018」のシンポジュームを開催した。初日は研究交流会、翌日は研究交流とテキストマイニングの講習会を併設した。参加人数は100人を超えている。
|