Development of tools and datasets to analyze the characteristics of the historical evolution of Japanese classical poetic vocabulary

Research Project

Project/Area Number	23K00545
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 02070:Japanese linguistics-related
Research Institution	Tokyo Institute of Technology
Principal Investigator	山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
Co-Investigator(Kenkyū-buntansha)	ホドシチェクボル大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000) Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット / AI支援 / 古代語
Outline of Research at the Start	八代集 (905年頃～1205年) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマットにこれまでに開発したデータセットを変換し、構文アノテーションを追加し、それに対応した可視化と簡易解析ツールを開発する。資料を標準フォーマットへ変換する作業を通し、①墨継ぎ・連綿等の表記の確認を容易にするために底本への参照をする仕組みを追加し、②日本語のUniversal Dependencies (UD) Treebankを参考に構文情報を記述し、その可視化機能を可能にする。③概念タグを利用し、従来の語レベルの共起ネットワークに加え、概念レベルのネットワーク出力を可能にするツール群を整備する。
Outline of Annual Research Achievements	本研究は八代集 (905 年頃~1205 年約 300 年間) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマット (Text Initiative Encoding, 以下 TEI[6]) を採用し、基盤研究 (C) でこれまでに開発したデータセットを変換、構文に関わるアノテーションを追加し、そのデータ処理に対応した可視化と簡易解析ツールを開発するものである。 2023年度は、システムの英語化を推進するために、八代集の和歌の英語訳とそのグロス（各単語の英語で代表される意味や品詞としての役割を示す素性標識）の開発を検討した。いずれもグラフ表現によるネットワーク中のノード表示を英語で示す、構文ツリーの単語の素性をグロスで表現するといった国際化のためのものであったが、2023年度は大規模言語モデルによるAIの躍進した年となり、各方面においてさまざまな生成系AIが出現し、本研究においても、プログラム開発において支援AIを用いて開発を進めていた。和歌データの作成時に、偶然、AIが提案するのは、プログラムコードではなく、和歌の英訳が提案されることを発見し、AI駆動によって八代集和歌の英語対訳を作成することにした。そのために、八代集の和歌の公刊されている現代語訳データの収集と古今和歌集の２種類の英語訳のデータ化を進めた。これらのデータをAIに教え込ませ、対訳を作成するのは結果的に可能かどうかを調べるために、各種のAIと人間による翻訳、プロンプトによる支援付きのAI支援の方法で、翻訳文の評価を行い、ネットワークノードに示すための単語ノードインデックス、グロスとしてのインデックスに適したデータの作成を検討し、学会発表の草稿を準備した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 八代集の現代語訳のデータ入力はまだ途中の段階（後拾遺集中盤）であるが、古今和歌集のデータはすでにZenodoで公開している。古今集の英訳は２種用意し、１種のデータ化すでに終了している。AIが出力する翻訳の適切さについての予備実験は行い、学会発表のための準備を進めている。翻訳文が八代集全般について適切であるかの評価指標については検討中である。八代集の構文情報表示のためのグロスの開発は、ライプツィヒ・システムを参考にし、機能語については大枠では採用できそうであることを確認している。しかし、日本の古語に由来する機能語群についてはさらなる検討が必要であることがわかった。
Strategy for Future Research Activity	最終的には、AI支援による翻訳文を作成することではなく、可視化システムに表示されるネットワークノードの国際化と構文情報を表示するためのグロスを得ることである。部分的に良さそうに見えて、別の文を表示した場合にも同じパフォーマンスが得られないこともあり、最悪、和歌に個別にデータを付与する作業が必要になる可能性も検討している。ネットワークノードの評価方法は、WordNetのデータと比較して、意義がある結果が得られるかどうか、検討している。 Universal Dependencyで得られる構文情報もAI支援で得られるのかどうか検討する価値があると考えている。ライプツィヒ・グロスはJavaScriptのLeipzig.jsで処理するプログラムがすでに存在しており、そのツールと本研究で得られたグロスインデックの試行実験を行う計画である。

Report

(1 results)

2023 Research-status Report

Research Products
(9 results)

All 2023 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (3 results) Remarks (3 results)

[Journal Article] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- Author(s)
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- Journal Title
  
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference, Vol. 2023
  
  Volume: 2023 Pages: 49-52
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- Author(s)
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- Journal Title
  
  JADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference., Vol. 2023
  
  Volume: 2023 Pages: 64-67
- Related Report
  2023 Research-status Report
[Journal Article] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- Author(s)
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- Journal Title
  
  Conference Reader of 2nd Annual Conference of Computational Literary Studies, Conference Reader
  
  Volume: 2023
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- Author(s)
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- Organizer
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference
- Related Report
  2023 Research-status Report
[Presentation] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- Author(s)
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- Organizer
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference.
- Related Report
  2023 Research-status Report
[Presentation] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- Author(s)
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- Organizer
  Conference Reader of 2nd Annual Conference of Computational Literary Studies
- Related Report
  2023 Research-status Report
[Remarks] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発
- URL
  https://cuckoo.js.ila.titech.ac.jp/~yamagen/waka/kaken2023.html
- Related Report
  2023 Research-status Report
[Remarks] Hachidaishu part of speech dataset
- URL
  https://zenodo.org/records/4835806
- Related Report
  2023 Research-status Report
[Remarks] Hachidaishu vocabulary dataset
- URL
  https://zenodo.org/records/4744170
- Related Report
  2023 Research-status Report

Development of tools and datasets to analyze the characteristics of the historical evolution of Japanese classical poetic vocabulary

Principal Investigator

山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)

¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

Author(s)

Journal Title

Related Report

[Journal Article] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

Author(s)

Journal Title

Related Report

[Journal Article] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

Author(s)

Journal Title

Related Report

[Presentation] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

Author(s)

Organizer

Related Report

[Presentation] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

Author(s)

Organizer

Related Report

[Presentation] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

Author(s)

Organizer

Related Report

[Remarks] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

URL

Related Report

[Remarks] Hachidaishu part of speech dataset

URL

Related Report

[Remarks] Hachidaishu vocabulary dataset

URL

Related Report

山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)