研究実績の概要 |
【目的】本研究では、Brown Corpusおよび関連コーパスに収録された1960年代~2000年代の英米小説データと比較しうる日本語小説データの時系列的な収集を目指した。 【コーパス構築】プロジェクトでは、1961年、1971年、1981年、1991年、2001年、2011年、2021年の7つのデータポイントを定め、各年に発行された「文学界」(文藝春秋)、「群像」(講談社)、「新潮」(新潮社)に掲載された小説作品217本(各5,000字)を収集した。サンプリング方法は、米語のスナップショット・コーパスの代表格であるBrown Corpusに準じる。ゆえに、同じサンプリング基準を採用しているBrown (1961, US), Frown (1992, US), Crown (2009, UK), LOB (1961, UK), FLOB (1991, UK), BE06 (2006, UK), CLOB (2009 , UK) などと直接的な比較が可能である。収集した日本語小説資料は、電子化してタグ付けを行い、1961-2021 Japanese General Fiction Corpus (6121JFIC)としてリリースした。同コーパスは、オンライン検索サイト上で使用可能である。 【コーパスの特徴】6121JFICには、日本語のオリジナルテキストに加え、2つのAI翻訳システムによって自動生成された原著作物の英訳が含まれている。これにより、6121JFICは、(1)現代日本語・日本語小説の60年間にわたる経年変化研究、および、(2)日本語小説(の英訳データ)と同時代の英米小説の言語・イメージ・文体・表現の比較研究、の両面に使用できるデータとなった。なお、現在、作業者による形態素解析と品詞判定の妥当性検証を実行中で、2023年度末に修正済みデータの公開を予定している。
|