研究課題/領域番号 |
18K12361
|
研究機関 | 東京大学 |
研究代表者 |
川崎 義史 東京大学, 大学院総合文化研究科, 講師 (40794756)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | スペイン語史 / 年代推定 / 地点推定 / 分散表現 / 言語変化 / 深層学習 / 計量文献学 / ロマンス語 |
研究実績の概要 |
・中近世スペイン語古文書の年代推定・地点推定の研究については,年代や緯度・経度で表された地点を連続変数とみなし,回帰モデルで推定する実験を行った。これまでは,年代と地点をともに離散変数とみなし,分類問題として解いていた。しかし,年代と地点は連続変数と考えた方がより自然である。文書ベクトルには,文字n-gram,単語n-gram,Doc2Vec,BERTによる分散表現を用いた。実験の結果,回帰モデルとしては,予測の信頼度として推定分散が求まるガウス過程の有効性が確認された。文書ベクトルとしては,Doc2VecやBERTによる分散表現ベースのものよりも,n-gramの方が優れていることが分かった。これは,文書の全体的な情報よりも,n-gramが捉える具体的な単語や文字連続が推定に効果的であることを示唆している。研究成果は国内学会・国際学会で発表した。 ・前年度に引き続き,現代スペイン語品詞タガーを用いて品詞タグ付けした中近世スペイン語散文作品の品詞タグの人手での修正を行った。また,今年度,新たに,中世スペイン語騎士道物語『アマディス・デ・ガウラ』について,品詞タグ付けと人手での修正を行った上で,計量文献学的分析を行った。この作品の成り立ちには不明瞭な点があるが,計量文献学的見地からの分析は存在しない。分析の結果,定説を一部支持する知見が得られた一方,従来考慮されてこなかった別の可能性があることも判明した。研究成果は国内学会・国際学会で発表した。 ・類推による古典ラテン語の動詞活用の平準化のモデリングの研究については,進展させることができなかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
・年代推定・地点推定の実験が遅滞している。 ・中近世スペイン語文献の品詞タグ修正の作業が遅滞している。 ・動詞活用の平準化のモデル構築が難航している。
|
今後の研究の推進方策 |
・年代推定・地点推定の研究については,分類と回帰の両アプローチの性能比較,年代と地点の同時推定を行う。また,古文書から学習したモデルが文学作品等ジャンルの異なる文献にも応用できるか調査する。 ・中近世スペイン語文献に付与された品詞タグの人手での修正作業を加速させる。 ・動詞活用の平準化のモデリングの研究については,モデルの開発,実験,考察を更に進める。
|
次年度使用額が生じた理由 |
初年度に物品費から購入予定だったパソコンを自費購入したため,また,予定していた海外出張がコロナ禍によりキャンセルになったため,未使用額が発生している。 未使用額は,来年度の出張費,書籍購入費,英文添削費用に充当する予定。
|