2013 Fiscal Year Annual Research Report
Project/Area Number |
13J03408
|
Research Institution | The University of Tokyo |
Principal Investigator |
川崎 義史 東京大学, 大学院 総合文化研究科, 特別研究員(DC2)
|
Keywords | スペイン語史 / コーパス言語学 / 統計学 |
Research Abstract |
1. 本研究の目的は、13世紀から17世紀のスペイン語公証文書の作成年代・発行地域を推定する方法論を確立することである。本年度は、言語特徴の抽出と作成年代・発行地域推定のアルゴリズムの開発に取り組み、研究を大きく前進させることができた。 2. カスティーリャ方言に加え、レオン方言、ナバラ方言、アラゴン方言等の言語特徴を抽出し、年代変異と地域変異を同時に扱えるようにした。現時点で約300の言語特徴を抽出してある。 3. 文書の作成年代算出のアルゴリズムとしてk近傍法(k-NN)を用いることで、推定精度が大幅に向上した。修正ファイ係数を用いて文書同士の類似度を測った場合に最も良い結果となり、実年代と推定年代との誤差の平均がCODEA (Corpus de Documentos Españoles Anteriores a 1700)では21年、CODCAR (Corpus de Documentos de Cancillería Real)では6年まで減少した。誤差の中央値も、それぞれ14年、4年まで下がった。また、k近傍法を用いることで、文書の作成年代と同時に発行地域の推定も可能になった。ただし、現時点での発行地域の推定精度は60%程度である。 4. 作成年代と発行地域を推定する一連の処理を自動化するプログラムをVBAのマクロで作成した。これにより、パラメータを様々に変化させながら実験を行うことが可能になった。 5. マドリードのCSIC (Consejo Superior de Investigaciones Científicas)図書館で、スペイン語史関連の資料収集を行った。また、アルカラ大学で現地の研究者らと年代推定の方法論について意見交換した。 6. 研究成果は国内学会(2件)と国際学会(2件)で発表し、スペイン語論文にまとめた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
年代変異・地域変異を考慮した十分な数の言語特徴を抽出し、実年代と推定年代の誤差の平均を20年程度まで減少させることができたから。
|
Strategy for Future Research Activity |
今後取り組むべき課題は、更に多くの言語特徴の抽出、文書の作成年代・発行地域の推定精度の向上、推定年代の信頼度の指標化である。また、作成年代不詳の公証文書の年代推定を行い、その結果をスペイン語史の研究者に評価してもらうことを考えている。
|
Research Products
(5 results)