2023 年度実施状況報告書

歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

研究課題

研究課題/領域番号	23K00545
研究機関	東京工業大学
研究代表者	山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
研究分担者	ホドシチェクボル大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
研究期間 (年度)	2023-04-01 – 2026-03-31
キーワード	和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット / AI支援
研究実績の概要	本研究は八代集 (905 年頃~1205 年約 300 年間) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマット (Text Initiative Encoding, 以下 TEI[6]) を採用し、基盤研究 (C) でこれまでに開発したデータセットを変換、構文に関わるアノテーションを追加し、そのデータ処理に対応した可視化と簡易解析ツールを開発するものである。 2023年度は、システムの英語化を推進するために、八代集の和歌の英語訳とそのグロス（各単語の英語で代表される意味や品詞としての役割を示す素性標識）の開発を検討した。いずれもグラフ表現によるネットワーク中のノード表示を英語で示す、構文ツリーの単語の素性をグロスで表現するといった国際化のためのものであったが、2023年度は大規模言語モデルによるAIの躍進した年となり、各方面においてさまざまな生成系AIが出現し、本研究においても、プログラム開発において支援AIを用いて開発を進めていた。和歌データの作成時に、偶然、AIが提案するのは、プログラムコードではなく、和歌の英訳が提案されることを発見し、AI駆動によって八代集和歌の英語対訳を作成することにした。そのために、八代集の和歌の公刊されている現代語訳データの収集と古今和歌集の２種類の英語訳のデータ化を進めた。これらのデータをAIに教え込ませ、対訳を作成するのは結果的に可能かどうかを調べるために、各種のAIと人間による翻訳、プロンプトによる支援付きのAI支援の方法で、翻訳文の評価を行い、ネットワークノードに示すための単語ノードインデックス、グロスとしてのインデックスに適したデータの作成を検討し、学会発表の草稿を準備した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由八代集の現代語訳のデータ入力はまだ途中の段階（後拾遺集中盤）であるが、古今和歌集のデータはすでにZenodoで公開している。古今集の英訳は２種用意し、１種のデータ化すでに終了している。AIが出力する翻訳の適切さについての予備実験は行い、学会発表のための準備を進めている。翻訳文が八代集全般について適切であるかの評価指標については検討中である。八代集の構文情報表示のためのグロスの開発は、ライプツィヒ・システムを参考にし、機能語については大枠では採用できそうであることを確認している。しかし、日本の古語に由来する機能語群についてはさらなる検討が必要であることがわかった。
今後の研究の推進方策	最終的には、AI支援による翻訳文を作成することではなく、可視化システムに表示されるネットワークノードの国際化と構文情報を表示するためのグロスを得ることである。部分的に良さそうに見えて、別の文を表示した場合にも同じパフォーマンスが得られないこともあり、最悪、和歌に個別にデータを付与する作業が必要になる可能性も検討している。ネットワークノードの評価方法は、WordNetのデータと比較して、意義がある結果が得られるかどうか、検討している。 Universal Dependencyで得られる構文情報もAI支援で得られるのかどうか検討する価値があると考えている。ライプツィヒ・グロスはJavaScriptのLeipzig.jsで処理するプログラムがすでに存在しており、そのツールと本研究で得られたグロスインデックの試行実験を行う計画である。
次年度使用額が生じた理由	生成系AIの出現により、研究方法の変更を行なったため、学会参加を見合わせた。本年度は、国際会議に出席するために草稿を作成し、採択されたので、海外出張に費用は充てられる予定である。

研究成果
(9件)

すべて 2023 その他

すべて雑誌論文 (3件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (3件) 備考 (3件)

[雑誌論文] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- 著者名/発表者名
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- 雑誌名
  
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference, Vol. 2023
  
  巻: 2023 ページ: 49-52
- DOI
  10.48694/jcls.3596
- 査読あり / オープンアクセス
[雑誌論文] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- 著者名/発表者名
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- 雑誌名
  
  JADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference., Vol. 2023
  
  巻: 2023 ページ: 64-67
[雑誌論文] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- 著者名/発表者名
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- 雑誌名
  
  Conference Reader of 2nd Annual Conference of Computational Literary Studies, Conference Reader
  
  巻: 2023 ページ: no. 1
- 査読あり / オープンアクセス
[学会発表] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- 著者名/発表者名
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- 学会等名
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference
[学会発表] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- 著者名/発表者名
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- 学会等名
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference.
[学会発表] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- 著者名/発表者名
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- 学会等名
  Conference Reader of 2nd Annual Conference of Computational Literary Studies
[備考] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発
- URL
  https://cuckoo.js.ila.titech.ac.jp/~yamagen/waka/kaken2023.html
[備考] Hachidaishu part of speech dataset
- URL
  https://zenodo.org/records/4835806
[備考] Hachidaishu vocabulary dataset
- URL
  https://zenodo.org/records/4744170

2023 年度 実施状況報告書

歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

研究代表者

山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

著者名/発表者名

雑誌名

[雑誌論文] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

著者名/発表者名

雑誌名

[学会発表] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

著者名/発表者名

学会等名

[学会発表] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

著者名/発表者名

学会等名

[学会発表] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

著者名/発表者名

学会等名

[備考] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

URL

[備考] Hachidaishu part of speech dataset

URL

[備考] Hachidaishu vocabulary dataset

URL

2023 年度実施状況報告書

山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)