歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

研究課題

研究課題/領域番号	23K00545
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分02070:日本語学関連
研究機関	東京工業大学
研究代表者	山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
研究分担者	ホドシチェクボル大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,770千円 (直接経費: 2,900千円、間接経費: 870千円) 2025年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット / AI支援 / 古代語
研究開始時の研究の概要	八代集 (905年頃～1205年) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマットにこれまでに開発したデータセットを変換し、構文アノテーションを追加し、それに対応した可視化と簡易解析ツールを開発する。資料を標準フォーマットへ変換する作業を通し、①墨継ぎ・連綿等の表記の確認を容易にするために底本への参照をする仕組みを追加し、②日本語のUniversal Dependencies (UD) Treebankを参考に構文情報を記述し、その可視化機能を可能にする。③概念タグを利用し、従来の語レベルの共起ネットワークに加え、概念レベルのネットワーク出力を可能にするツール群を整備する。
研究実績の概要	本研究は八代集 (905 年頃~1205 年約 300 年間) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマット (Text Initiative Encoding, 以下 TEI[6]) を採用し、基盤研究 (C) でこれまでに開発したデータセットを変換、構文に関わるアノテーションを追加し、そのデータ処理に対応した可視化と簡易解析ツールを開発するものである。 2023年度は、システムの英語化を推進するために、八代集の和歌の英語訳とそのグロス（各単語の英語で代表される意味や品詞としての役割を示す素性標識）の開発を検討した。いずれもグラフ表現によるネットワーク中のノード表示を英語で示す、構文ツリーの単語の素性をグロスで表現するといった国際化のためのものであったが、2023年度は大規模言語モデルによるAIの躍進した年となり、各方面においてさまざまな生成系AIが出現し、本研究においても、プログラム開発において支援AIを用いて開発を進めていた。和歌データの作成時に、偶然、AIが提案するのは、プログラムコードではなく、和歌の英訳が提案されることを発見し、AI駆動によって八代集和歌の英語対訳を作成することにした。そのために、八代集の和歌の公刊されている現代語訳データの収集と古今和歌集の２種類の英語訳のデータ化を進めた。これらのデータをAIに教え込ませ、対訳を作成するのは結果的に可能かどうかを調べるために、各種のAIと人間による翻訳、プロンプトによる支援付きのAI支援の方法で、翻訳文の評価を行い、ネットワークノードに示すための単語ノードインデックス、グロスとしてのインデックスに適したデータの作成を検討し、学会発表の草稿を準備した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由八代集の現代語訳のデータ入力はまだ途中の段階（後拾遺集中盤）であるが、古今和歌集のデータはすでにZenodoで公開している。古今集の英訳は２種用意し、１種のデータ化すでに終了している。AIが出力する翻訳の適切さについての予備実験は行い、学会発表のための準備を進めている。翻訳文が八代集全般について適切であるかの評価指標については検討中である。八代集の構文情報表示のためのグロスの開発は、ライプツィヒ・システムを参考にし、機能語については大枠では採用できそうであることを確認している。しかし、日本の古語に由来する機能語群についてはさらなる検討が必要であることがわかった。
今後の研究の推進方策	最終的には、AI支援による翻訳文を作成することではなく、可視化システムに表示されるネットワークノードの国際化と構文情報を表示するためのグロスを得ることである。部分的に良さそうに見えて、別の文を表示した場合にも同じパフォーマンスが得られないこともあり、最悪、和歌に個別にデータを付与する作業が必要になる可能性も検討している。ネットワークノードの評価方法は、WordNetのデータと比較して、意義がある結果が得られるかどうか、検討している。 Universal Dependencyで得られる構文情報もAI支援で得られるのかどうか検討する価値があると考えている。ライプツィヒ・グロスはJavaScriptのLeipzig.jsで処理するプログラムがすでに存在しており、そのツールと本研究で得られたグロスインデックの試行実験を行う計画である。

報告書

(1件)

2023 実施状況報告書

研究成果
(9件)

すべて 2023 その他

すべて雑誌論文 (3件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (3件) 備考 (3件)

[雑誌論文] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- 著者名/発表者名
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- 雑誌名
  
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference, Vol. 2023
  
  巻: 2023 ページ: 49-52
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- 著者名/発表者名
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- 雑誌名
  
  JADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference., Vol. 2023
  
  巻: 2023 ページ: 64-67
- 関連する報告書
  2023 実施状況報告書
[雑誌論文] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- 著者名/発表者名
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- 雑誌名
  
  Conference Reader of 2nd Annual Conference of Computational Literary Studies, Conference Reader
  
  巻: 2023
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023
- 著者名/発表者名
  Xudong Chen, Bor Hodoscek, Hilofumi Yamamoto
- 学会等名
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference
- 関連する報告書
  2023 実施状況報告書
[学会発表] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023
- 著者名/発表者名
  Hilofumi Yamamoto, Bor Hodoscek, Xudong Chen
- 学会等名
  ADH 2023 possibilities of data-driven humanities, The 12th conference of JADH; Proceedings of JADH conference.
- 関連する報告書
  2023 実施状況報告書
[学会発表] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023
- 著者名/発表者名
  Xudong Chen, Hilofumi Yamamoto, Bor Hodoscek
- 学会等名
  Conference Reader of 2nd Annual Conference of Computational Literary Studies
- 関連する報告書
  2023 実施状況報告書
[備考] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発
- URL
  https://cuckoo.js.ila.titech.ac.jp/~yamagen/waka/kaken2023.html
- 関連する報告書
  2023 実施状況報告書
[備考] Hachidaishu part of speech dataset
- URL
  https://zenodo.org/records/4835806
- 関連する報告書
  2023 実施状況報告書
[備考] Hachidaishu vocabulary dataset
- URL
  https://zenodo.org/records/4744170
- 関連する報告書
  2023 実施状況報告書

歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

研究代表者

山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)

3,770千円 (直接経費: 2,900千円、間接経費: 870千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Near-synonym noun-noun patterns in the Hachidaishu Dataset2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Development of a dataset for comparison between predicate verb phrases in the Kokinshu and their contemporary translations2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Translation-based connotation visualization for classical poetic Japanese vocabulary of the Kokin Wakashu; ca. 9052023

著者名/発表者名

学会等名

関連する報告書

[備考] 歌ことばの歴史的変遷の特徴を解析するツール群とデータセットの開発

URL

関連する報告書

[備考] Hachidaishu part of speech dataset

URL

関連する報告書

[備考] Hachidaishu vocabulary dataset

URL

関連する報告書

山元啓史東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)