2023 Fiscal Year Annual Research Report
Diachronic Studies of Spanish using Deep Learning Methods
Project/Area Number |
18K12361
|
Research Institution | The University of Tokyo |
Principal Investigator |
川崎 義史 東京大学, 大学院総合文化研究科, 准教授 (40794756)
|
Project Period (FY) |
2018-04-01 – 2024-03-31
|
Keywords | スペイン語 / ロマンス語 / 深層学習 / 計算言語学 / 計量文献学 / 言語変化 / 歴史方言学 |
Outline of Annual Research Achievements |
課題①深層学習モデルによる言語変化のモデル化:研究期間全体を通じて,ラテン語からロマンス語への動詞活用の平準化のモデル化を行った。分析の結果,モデルの正答率が低い(高い)活用ほど,実際の変化度合いが大き(小さ)くなる傾向が見られた。これは,モデルが実際の言語変化を部分的に再現できていることを示唆する。本研究は,計算歴史言語学の可能性を開拓した点で意義がある。研究成果は国内学会で発表済みだが,論文化が遅れているため今後の課題としたい。 課題②深層学習モデルによる中近世スペイン語品詞解析器の開発:データの前処理や人手の事後修正を行えば,現代スペイン語用の既存の解析器が中近世語にも一定程度適用できることが判明した。そのため,自前の中近世語用の解析器を開発するという当初の予定を変更し,最終的な目的であった著者推定に注力することにした。具体的には,中近世スペイン語の文学作品『アマディス・デ・ガウラ』や『贋作ドン・キホーテ』の分析を行い,研究成果を国内外の学会で発表した。今年度は,中世カタルーニャ語文学の金字塔『ティラン・ロ・ブラン』の分析を完了し,複数作者説よりも単一作者説の方が可能性が高いことを示した。研究成果は国際学会NLP4DH&IWCLUL2023で発表した。 課題③深層学習モデルによる中近世スペイン語古文書の年代・地点推定法の改善:研究期間全体を通じて,分類と回帰の両方面からモデルの開発に取り組んだ。ある程度の推定性能を達成したものの,網羅的な分析や論文化が遅れているため,今後の課題としたい。今年度は,年代・地点推定の副産物として得られる単語の時空間分散表現を用いて計算歴史方言学の研究を進めた。研究成果は国際学会SLE2023で発表した。 この他,今年度は,これまでの研究成果に基づき,深層学習を利用した言語研究の可能性について,国内学会で二件の招待講演を行った。
|