本研究の目的は、中世スペイン語古文書コーパスCODEA(Corpus de Documentos Espanholes Anteriores a 1700)に含まれる作成年代不詳文書の年代推定法の開発である。年代推定は、単語の出現頻度等の言語的特徴を手掛かりにして行う。 本年度は、数理的手法を用いた年代推定法の開発に取り組んだ。年度前半は、機械学習、ベイズ統計、確率的言語モデル、情報検索の基礎を学んだ。また、6月にマドリードで開催された文献学講習会に参加し、スペイン語文献学の基礎を学んだ。年度後半は、複数の分類器(ナイーブベイズ、k近傍法、Ngramモデル)を実装し、実験を行った。コーパスに含まれる文書数はパラメータの推定には不十分なので、カーネル平滑化によりスパースネスの緩和・欠損値補充を行った。 各分類器の精度は、作成年代が既知の文書に対する推定誤差により評価した。実験の結果、実年代と推定年代との絶対値誤差平均を約17年に抑えることができた。これは昨年度に比べ、約4年の改善である。 本研究の年代推定法により、年代不詳の中世スペイン語古文書の作成年代を比較的小さな誤差で推定することが可能となった。同様の方法で、文書の作成場所の推定も可能になると考えられる。また、この年代推定法は使用言語に依存しないため、他言語の古文書にも応用可能である。 研究成果は、国内学会(3件)と国際学会(1件)で口頭発表した。
|