ヴェーダ文献テクストの構造化およびテクスト間の言語的関係の解明

Research Project

Project/Area Number	23K18646
Research Category	Grant-in-Aid for Research Activity Start-up
Allocation Type	Multi-year Fund
Review Section	0102:Literature, linguistics, and related fields
Research Institution	The University of Tokyo
Principal Investigator	塚越柚季東京大学, 大学院人文社会系研究科(文学部), 助教 (30981782)
Project Period (FY)	2023-08-31 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords	ヴェーダ / 韻律 / 構造化テクスト / ヴェーダ文献 / TEI / 計量文体学
Outline of Research at the Start	本研究は、ヴェーダ文献群のテクスト間の言語的・内容的な関係を明らかにするを目的とし、そのためにテクストデータベースを確立し、著者の関係を解明する。ヴェーダ文献の 1 つ『リグ・ヴェーダ』本集における詩人の特徴を研究し、その結果から他のヴェーダ学派との関係を解明する。そのためテクストの構造化を行い、大規模かつ再現可能な形で研究を進める。手法としては、文献学的手法に加え、新たに分析用の構造化テクストを作成し、TEI ガイドラインに則った XML を使用する。今後、分析対象の文献の範囲を広げ、全体的にテクスト分析を行うことで、ヴェーダ文献全体のテクストの関係性や、学派の関係を解明することを目指す。
Outline of Annual Research Achievements	本研究は、準備段階としてデジタルテクストの整備を行い、最終的な目的としてヴェーダ文献群のテクスト間の言語的・内容的な関係を明らかにすることを定めている。デジタルテクストの整備とは主に以下のような情報をテクストに付与することである：(1) デジタルテクストのもとになった刊本情報、(2) テクスト内の章・節・段落・文など一定単位における文書情報（=章番号や韻文/散文の別など）、(3) 単語の形態情報。本研究は既存の利用可能なデジタルテクストを加工する方針を取っており、対象は4ヴェーダ（リグヴェーダ、サーマヴェーダ、ヤジュルヴェーダ、アタルヴァヴェーダ）のサンヒターおよびブラーフマナに限っている。既存のテクストデータベースには(1)の書誌情報が既に記載されており、デジタル化の作業者/責任者が明記されているため、本研究によって追加する情報はない。(2) については、章番号や節番号のような自動的に付与できる情報は完了している。また、別プロジェクト（国際共同研究加速基金(国際共同研究強化(B))「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」研究代表者：天野恭子）の成果を活用することで、一部のヴェーダ文献は祭式に関する詳細な注釈の付与が可能になった。(3)形態情報について、計算機による自動付与にあたって既存のツールの改良を行っており、情報付与自体は未着手である。テクスト分析の手法にかんして、一手法として韻律構造によるテクスト比較が有効であることをリグヴェーダで確認した。これは、数千数万にのぼる種類の単語（あるいは文字列）の並びであるテクストを、4種類の韻律要素（=軽音節、重音節、単語境界、詩行境界）の並びに置き換えることにより、テクスト間の類似性を分析するものである。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason デジタルテクストの整備にあたっては、(1)刊本の情報、(2)章・節・段落・文などの情報、(3) 単語の形態情報がさしあたり必要なものである。既存のデジタルテクストを利用することで(1)、(2)はある程度自動で作業が行えた。(3)は、同じように情報を自動で付与するために、まずツールの改良に着手した。テクスト分析には、n-gram分析、単語や文の分散表現による類似度計算、言語モデルを用いた分析など順当な手法の検討を行った。それと並行して、リグヴェーダを対象に韻律構造にのみ着目した比較を行った。韻律構造による分析はもともとラテン語詩で行われていたが、ラテン語とサンスクリット語（ヴェーダ語）との韻律計算の類似性から、ヴェーダにおいても同様の分析の可能性を見出し、実際に有効性を確かめた。
Strategy for Future Research Activity	単語の形態情報付与は技術的な作業の段階の次に、人による評価が必要である。機械学習ベースの単語の形態情報自動付与は、誤りを含むものであるため、最終的に人が目を通すことにより修正することになる。ここで単語の形態情報を定めるということは、半ば文自体の読みを確定させることでもあり、純粋に文献学的な作業となる。これから得られる人による読みをデジタルテクストへアノテーションすることにより、デジタルテクストの情報の深みを増やしつつ共有可能なものにする。また、本研究が整備するデジタルテクストに対して、本研究の過程で生じる誤りや依拠するデジタルテクストから継承する誤りは避けて通れない。誤りの検証および修正作業は、デジタルテクストそのものと、もととなった刊本の画像との対応付けによって従来よりも容易になる。そのことを念頭におき、刊本（画像）のどの位置にテクストが相当するかを第4の情報として付与する必要がある。これは、光学文字認識によって画像から文字を読み取り、対応するテクストを探索することで遂行される。