2023 Fiscal Year Research-status Report
Application of computational linguistic techniques to Medieval and Modern Spanish texts
Project/Area Number |
23K12152
|
Research Institution | The University of Tokyo |
Principal Investigator |
川崎 義史 東京大学, 大学院総合文化研究科, 准教授 (40794756)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Keywords | スペイン語 / ロマンス語 / カタルーニャ語 / 計量文献学 / 計算言語学 / 意味変化 / 文法化 |
Outline of Annual Research Achievements |
課題①中近世スペイン語文学作品の著者推定:中世カタルーニャ語騎士道小説の金字塔『ティラン・ロ・ブラン』の作者は複数人ではなく一人である可能性が高いことを計量的分析により示した。本作品について,これまで文献学の見地から単一作者説と複数作者説が提起されてきた。計量文献学の見地からは複数作者説が有力視されていた。しかし,先行研究には,地の文と会話部の区別を無視しているいう欠点があった。本研究では,両者を区別しつつ,品詞n-gramを特徴量として教師なし学習を行った。分析の結果,単一作者説の可能性が高いことが判明した。研究成果は国際会議NLP4DH&IWCLUL2023で発表した。 課題②中近世スペイン語古文書の年代推定・地点推定には着手できなかった。 課題③ラテン語からロマンス語への通時変化のモデル化:(1)単語の分散表現を用いて意味変化の統計的法則が1000年以上成り立つことを示した。先行研究では200年程度だった法則の成立期間を大幅に伸ばした点に意義がある。この研究で言語処理学会の委員特別賞を受賞した;(2)対象言語が英語になるが,単語の分散表現とフォン・ミーゼス分布を用いて意味の集中度を定義し,それに基づき意味変化を検出する手法を提案した。単純な手法であるにも関わらず,最高性能の検出力を達成した。研究成果は言語処理学会と国際会議EMNLP2023で発表した;(3)同じく対象言語が英語になるが,単語の分散表現を用いて英語の動詞派生前置詞の文法化度を定量化することに成功した。文法化の定量化は世界初の試みである。この研究で言語処理学会の優秀賞を受賞した。 この他,数理的手法による言語変異・変化の研究を主題とした国際研究集会Complexity in Language Variation and Change(COMPILA2023)を海外の研究者と共同開催した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
課題②中近世スペイン語古文書の年代推定・地点推定は遅れているが,その他の実施予定の研究課題は順調に進んでいる。また,当初予定していなかった新たな関連研究課題を発掘することができた。
|
Strategy for Future Research Activity |
課題①中近世スペイン語文学作品の著者推定:『贋作ドン・キホーテ』の計量文献学的分析を完了させる。 課題②中近世スペイン語古文書の年代推定・地点推定:未着手のデータ整理を進める。 課題③ラテン語からロマンス語への通時変化のモデル化:系列変換モデルによるラテン語からロマンス語への形態的変化の分析を完了させる。
|
Causes of Carryover |
昨今の円安状況に鑑み,次年度の海外出張旅費を確保するために使用計画を一部変更したため,次年度使用額が発生した。次年度使用額は翌年度請求分の助成金と合わせて,主に旅費として使用する。
|