2020 Fiscal Year Research-status Report
Novels and Data Sciences: Mindscape Seen in Language
Project/Area Number |
20K20699
|
Research Institution | Kobe University |
Principal Investigator |
石川 慎一郎 神戸大学, 大学教育推進機構, 教授 (90320994)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | コーパス / 英語 / 日本語 / 小説 / マインドスケープ |
Outline of Annual Research Achievements |
ある国の小説は,当該国の母語話者が意識的・無意識的に継承する文化・風俗・精神・言語の表象であると考えられる。小説は,従来,文学研究の素材として考えられてきたが,「データサイエンス」の観点から見ると,小説は文化研究の新しいリソースとなりうる。たとえば,ランダムサンプリングされた日米の小説資料を比較することで,両国の精神風景(マインドスケープ)を計量的に論じることも可能になる。こうした研究を行おうとする場合,重要になるのは,日米間で,相互比較可能な小説コーパスを整備することである。日本語・英語ともに,多くのコーパスが構築されているが,知る限り,日米間で,サンプリング基準をそろえて構築された相互比較可能な小説コーパスは存在しない。そこで本研究では,米語コーパスの原型とされるBrown Corpus(2,000語×500種のテキストサンプルコレクション)の「小説セクション」のサンプリング基準(恋愛小説,推理小説等のジャンル区分を行い,ジャンル間比率が事前に定めた枠組みに一致するようサンプルを収集している)を日本語に適用し,Brownと比較可能な日本語均衡小説コーパスJ-Brown Fictionを構築し,日米小説データの言語分析に基づく計量的なマインドスケープ比較を試行しようとするものである。2020年度においては,作業準備として,Brown Corpus収録の書籍の内容を調査し,indexを作成した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2020年度においては,プロジェクトのうち,第1フェーズに着手した。 (1) 標本抽出区分の決定:Brown Corpus(米国ブラウン大学で1964年にリリースされた世界初のジャンル均衡型言語コーパス)の小説セクションのジャンル区分を再調査し,日本の小説と対応する上で必要な場合は区分の削除・修正を行う(※Brown Corpusの区分を他言語に置換する試みはすでに中国語等で行われているが,その際には米国小説にしかない「西部劇」のジャンルを置き換えるなどの修正作業が加えられた)。
|
Strategy for Future Research Activity |
2021年度については,前述のフェーズ(1)を完了させた後,以下のフェーズ(2)に移行する。 (2) コーパスに収録する日本語小説資料の決定:まず,1961年刊行の日本語小説を母集団として,サンプルとなる作品リストを作成する。さらに,それらから約4000語を抽出し,テキストファイルとして整備する。
|
Causes of Carryover |
2020年度は,採択決定時期がずれこんだことと,コロナ禍で海外出張予定がすべてキャンセルになったため,経費の執行が予定より遅れた。2021年度については,コロナ禍の影響を当初より織り込んで執行を進めていく。
|
Research Products
(21 results)