本研究は、『日本語歴史コーパス』(CHJ)に収録された中古~近代の多様な資料からN-gramデータを作成し、これをもとに、以下の①~③の観点で、語の連続を通時的かつ計量的に整理・分析するものである。 ①日本語史上にみられる複合辞・連語にはどのようなものがあり、それぞれの時代・資料においてどのくらい使われているのか(通時的な複合辞・連語一覧表の作成)。 ②通時的観点から、どのような語が一語化し、複合辞や連語の要素となりやすいのか。 ③一度固定化した複合辞や連語が衰退する際のメカニズムはどのようなものであるか。 本年度は、『日本語歴史コーパス』に収録された口語資料を主たる対象として、2~7語のN-gramデータを抽出して整備し、このデータに複合辞・連語・引用表現・待遇表現・定型的表現等の情報を付与して分析を行った。また、昨年度までの成果を土台として、資料間のN-gramの共通度を比較・検討した。 その結果として、同時代の口語資料においては、主に2gramから4gramの表現で共通した複合辞や引用表現が多くみられ、使用頻度上位表現は他資料との共通度も高い傾向があること、一方で、特定の資料のみにあらわれる表現は、その資料の性格を色濃く表しているものが多く、それぞれの資料性を反映して出現する表現に差異がみられること等を明らかにした。本年度の研究成果については、『コーパスによる日本語史研究 中古・中世編』(ひつじ書房)掲載の論文等において公開した。
|