2023 Fiscal Year Annual Research Report
A fundamental study of effective visualization and description of longitudinal changes of classical Japanese poetic vocabulary
Project/Area Number |
18K00528
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
Co-Investigator(Kenkyū-buntansha) |
ホドシチェク ボル 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
|
Project Period (FY) |
2018-04-01 – 2024-03-31
|
Keywords | 和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット |
Outline of Annual Research Achievements |
コロナ禍において、研究成果発表を行うことができなかったため、最終年度を延長し、データセットの開発、これまでの研究成果をまとめ、学会発表、論文執筆などの成果発表を中心に行った。 古今集から新古今集までのテキストを整理し、2つのデータセットを開発した。1つは、八代集の和歌すべてについての単語のデータである。このデータセットは、八代集の各和歌に含まれる単語を1次結合の場合と結合しない場合の分析が行なわれており、たとえば「竜田川」の場合と、「竜田」と「川」に分けるなどの場合の情報が含まれている。さらに各要素には国立国語研究所の分類語彙表準拠のコードを古語に対して付与されている。これは、Hachidaishu vocabulary datasetというデータ名で、Zenodo(4744170)にアップロードされている。もう1つは、八代集の和歌に加え、単語分割情報と品詞情報を添えたデータセットである。これは、昨年度より継続して行なわれているデータセットの拡張で Hachidaishu part of speech datasetというデータ名で同じく、Zenodo (4835806)にアップロードされている。これらのデータセットを利用し、国際学会で発表し、JCLSに原著論文を発表することができた。 海外の日本研究初心者にも日本語の言語分析に親しめるよう、すべて日英バイリンガルによる表示を目指し、和歌の対訳データの開発の基礎研究として、公刊されている八代集の現代語訳を収集し、データ化を進めていた。これは、現代語訳から解釈を抽出し、準手動で英訳を作成する計画であった。しかし、プログラム開発で使用していたAIが英訳を所々で提案するのに触発され、AIによる英訳支援システムの開発に着手し、最終年度を迎え、次の研究課題に繋ぐこととなった。
|
Research Products
(9 results)