Project/Area Number |
23K00545
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
Co-Investigator(Kenkyū-buntansha) |
ホドシチェク ボル 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット / AI支援 / 古代語 |
Outline of Research at the Start |
八代集 (905年頃~1205年) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマットにこれまでに開発したデータセットを変換し、構文アノテーションを追加し、それに対応した可視化と簡易解析ツールを開発する。資料を標準フォーマットへ変換する作業を通し、①墨継ぎ・連綿等の表記の確認を容易にするために底本への参照をする仕組みを追加し、②日本語のUniversal Dependencies (UD) Treebankを参考に構文情報を記述し、その可視化機能を可能にする。③概念タグを利用し、従来の語レベルの共起ネットワークに加え、概念レベルのネットワーク出力を可能にするツール群を整備する。
|
Outline of Annual Research Achievements |
本研究は八代集 (905 年頃~1205 年約 300 年間) の歌ことばの時代間比較ができるよう、国際標準テキストフォーマット (Text Initiative Encoding, 以下 TEI[6]) を採用し、基盤研究 (C) で これまでに開発したデータセットを変換、構文に関わるアノテーションを追加し、そのデータ処理に対応した可視化と簡易解析ツールを開発するものである。 2023年度は、システムの英語化を推進するために、八代集の和歌の英語訳とそのグロス(各単語の英語で代表される意味や品詞としての役割を示す素性標識)の開発を検討した。いずれもグラフ表現によるネットワーク中のノード表示を英語で示す、構文ツリーの単語の素性をグロスで表現するといった国際化のためのものであったが、2023年度は大規模言語モデルによるAIの躍進した年となり、各方面においてさまざまな生成系AIが出現し、本研究においても、プログラム開発において支援AIを用いて開発を進めていた。和歌データの作成時に、偶然、AIが提案するのは、プログラムコードではなく、和歌の英訳が提案されることを発見し、AI駆動によって八代集和歌の英語対訳を作成することにした。そのために、八代集の和歌の公刊されている現代語訳データの収集と古今和歌集の2種類の英語訳のデータ化を進めた。これらのデータをAIに教え込ませ、対訳を作成するのは結果的に可能かどうかを調べるために、各種のAIと人間による翻訳、プロンプトによる支援付きのAI支援の方法で、翻訳文の評価を行い、ネットワークノードに示すための単語ノードインデックス、グロスとしてのインデックスに適したデータの作成を検討し、学会発表の草稿を準備した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
八代集の現代語訳のデータ入力はまだ途中の段階(後拾遺集中盤)であるが、古今和歌集のデータはすでにZenodoで公開している。古今集の英訳は2種用意し、1種のデータ化すでに終了している。AIが出力する翻訳の適切さについての予備実験は行い、学会発表のための準備を進めている。翻訳文が八代集全般について適切であるかの評価指標については検討中である。 八代集の構文情報表示のためのグロスの開発は、ライプツィヒ・システムを参考にし、機能語については大枠では採用できそうであることを確認している。しかし、日本の古語に由来する機能語群についてはさらなる検討が必要であることがわかった。
|
Strategy for Future Research Activity |
最終的には、AI支援による翻訳文を作成することではなく、可視化システムに表示されるネットワークノードの国際化と構文情報を表示するためのグロスを得ることである。部分的に良さそうに見えて、別の文を表示した場合にも同じパフォーマンスが得られないこともあり、最悪、和歌に個別にデータを付与する作業が必要になる可能性も検討している。 ネットワークノードの評価方法は、WordNetのデータと比較して、意義がある結果が得られるかどうか、検討している。 Universal Dependencyで得られる構文情報もAI支援で得られるのかどうか検討する価値があると考えている。ライプツィヒ・グロスはJavaScriptのLeipzig.jsで処理するプログラムがすでに存在しており、そのツールと本研究で得られたグロスインデックの試行実験を行う計画である。
|