本年度は、画像のみがウェブ上で公開されている、日本外交文書、帝国議会会議録の全データを取得し、独自にOCR処理を行いテキスト化した。誤認識によるデータ誤りに対してある程度の修正処理をほどこした上、研究への利用可能性を調査検討した。その結果、特に帝国議会会議録は誤認識が多く厳密な統計分析への利用は困難であるものの、特定の表現の出現例を取得するなどの目的への利用は可能であることが分かった。それにより、方法的な制約はあるものの、研究対象となる年代を明治中期まで拡大することができた。 また、本年度は、国会会議録に加えて上述の帝国議会会議録も用い、特に、「です」「ございます」のコピュラ形式に注目し、従来(i)「~ますです」「~ましたです」のような形、(ii)「~してございます」のような形、の2つの経年変化について研究した。(ii)については、「~ある」「~いる」との対応関係の観点から、戦後に「~いる」に対応するものの頻度が大きく上昇していること、それは、国会において議員に説明を行う立場の者で顕著であることを発見した。 研究期間全体を通じて、(i)新データの利用可能性の調査検討、(ii)頻度統計に基づく 用法変化の探索・発見、(iii)新用法出現時期の発見、を行った。(i)については、上記記載の通りである。(ii)については、同一動詞におけるニ→ヲ、ヲ→ニの格表示変化について、変化の顕著な動詞を発見した。また、コピュラ形式の用法変化や、「可能性」という語の用法変化について、多角的な観点から探索的に研究した。(iii) については、「可能性」の用法に関して、未実現の事柄について言う用例がおよそ戦後に一般化したものであることなどを発見した。 全体として、言語変化研究における、大規模コーパスを用いたアプローチの可能性・限界・手法を探り、それぞれに、重要な知見を得ることができた。
|