研究課題
コロナ禍において、研究成果発表を行うことができなかったため、最終年度を延長し、データセットの開発、これまでの研究成果をまとめ、学会発表、論文執筆などの成果発表を中心に行った。古今集から新古今集までのテキストを整理し、2つのデータセットを開発した。1つは、八代集の和歌すべてについての単語のデータである。このデータセットは、八代集の各和歌に含まれる単語を1次結合の場合と結合しない場合の分析が行なわれており、たとえば「竜田川」の場合と、「竜田」と「川」に分けるなどの場合の情報が含まれている。さらに各要素には国立国語研究所の分類語彙表準拠のコードを古語に対して付与されている。これは、Hachidaishu vocabulary datasetというデータ名で、Zenodo(4744170)にアップロードされている。もう1つは、八代集の和歌に加え、単語分割情報と品詞情報を添えたデータセットである。これは、昨年度より継続して行なわれているデータセットの拡張で Hachidaishu part of speech datasetというデータ名で同じく、Zenodo (4835806)にアップロードされている。これらのデータセットを利用し、国際学会で発表し、JCLSに原著論文を発表することができた。海外の日本研究初心者にも日本語の言語分析に親しめるよう、すべて日英バイリンガルによる表示を目指し、和歌の対訳データの開発の基礎研究として、公刊されている八代集の現代語訳を収集し、データ化を進めていた。これは、現代語訳から解釈を抽出し、準手動で英訳を作成する計画であった。しかし、プログラム開発で使用していたAIが英訳を所々で提案するのに触発され、AIによる英訳支援システムの開発に着手し、最終年度を迎え、次の研究課題に繋ぐこととなった。
すべて 2024 2023 その他
すべて 雑誌論文 (4件) (うち査読あり 4件、 オープンアクセス 4件) 学会発表 (2件) 備考 (3件)
Journal of Computational Literary StudiesVol. 2
巻: 2023 ページ: 1-32
10.48694/jcls.3596
he 12th conference of JADH; Proceedings of JADH conference., Vol. 2023
巻: 2023 ページ: 64-67
ADH 2023 possibilities of data-driven humanities Vol. 2023
巻: 2023 ページ: 49-52
日本語教育方法研究会誌, Vol. 29, No. 2
巻: 2023 ページ: 38.39.54.55
https://cuckoo.js.ila.titech.ac.jp/~yamagen/waka/kaken2018.html
https://zenodo.org/records/4835806
https://zenodo.org/records/4744170