1. 本研究の目的は、13世紀から17世紀のスペイン語公証文書の作成年代・発行地域を推定する方法論を確立することである。本年度は、言語特徴の抽出と作成年代・発行地域推定のアルゴリズムの開発に取り組み、研究を大きく前進させることができた。 2. カスティーリャ方言に加え、レオン方言、ナバラ方言、アラゴン方言等の言語特徴を抽出し、年代変異と地域変異を同時に扱えるようにした。現時点で約300の言語特徴を抽出してある。 3. 文書の作成年代算出のアルゴリズムとしてk近傍法(k-NN)を用いることで、推定精度が大幅に向上した。修正ファイ係数を用いて文書同士の類似度を測った場合に最も良い結果となり、実年代と推定年代との誤差の平均がCODEA (Corpus de Documentos Españoles Anteriores a 1700)では21年、CODCAR (Corpus de Documentos de Cancillería Real)では6年まで減少した。誤差の中央値も、それぞれ14年、4年まで下がった。また、k近傍法を用いることで、文書の作成年代と同時に発行地域の推定も可能になった。ただし、現時点での発行地域の推定精度は60%程度である。 4. 作成年代と発行地域を推定する一連の処理を自動化するプログラムをVBAのマクロで作成した。これにより、パラメータを様々に変化させながら実験を行うことが可能になった。 5. マドリードのCSIC (Consejo Superior de Investigaciones Científicas)図書館で、スペイン語史関連の資料収集を行った。また、アルカラ大学で現地の研究者らと年代推定の方法論について意見交換した。 6. 研究成果は国内学会(2件)と国際学会(2件)で発表し、スペイン語論文にまとめた。
|