研究課題/領域番号 |
13J03408
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
言語学
|
研究機関 | 東京大学 |
研究代表者 |
川崎 義史 東京大学, 総合文化研究科, 特別研究員(PD)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
1,200千円 (直接経費: 1,200千円)
2014年度: 600千円 (直接経費: 600千円)
2013年度: 600千円 (直接経費: 600千円)
|
キーワード | スペイン語史 / コーパス言語学 / 機械学習 / 自然言語処理 / 統計学 |
研究実績の概要 |
本研究の目的は、中世スペイン語古文書コーパスCODEA(Corpus de Documentos Espanholes Anteriores a 1700)に含まれる作成年代不詳文書の年代推定法の開発である。年代推定は、単語の出現頻度等の言語的特徴を手掛かりにして行う。 本年度は、数理的手法を用いた年代推定法の開発に取り組んだ。年度前半は、機械学習、ベイズ統計、確率的言語モデル、情報検索の基礎を学んだ。また、6月にマドリードで開催された文献学講習会に参加し、スペイン語文献学の基礎を学んだ。年度後半は、複数の分類器(ナイーブベイズ、k近傍法、Ngramモデル)を実装し、実験を行った。コーパスに含まれる文書数はパラメータの推定には不十分なので、カーネル平滑化によりスパースネスの緩和・欠損値補充を行った。 各分類器の精度は、作成年代が既知の文書に対する推定誤差により評価した。実験の結果、実年代と推定年代との絶対値誤差平均を約17年に抑えることができた。これは昨年度に比べ、約4年の改善である。 本研究の年代推定法により、年代不詳の中世スペイン語古文書の作成年代を比較的小さな誤差で推定することが可能となった。同様の方法で、文書の作成場所の推定も可能になると考えられる。また、この年代推定法は使用言語に依存しないため、他言語の古文書にも応用可能である。 研究成果は、国内学会(3件)と国際学会(1件)で口頭発表した。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|