2023 年度実施状況報告書

ヴェーダ文献テクストの構造化およびテクスト間の言語的関係の解明

研究課題

研究課題/領域番号	23K18646
研究機関	東京大学
研究代表者	塚越柚季東京大学, 大学院人文社会系研究科(文学部), 助教 (30981782)
研究期間 (年度)	2023-08-31 – 2025-03-31
キーワード	ヴェーダ / 韻律 / 構造化テクスト
研究実績の概要	本研究は、準備段階としてデジタルテクストの整備を行い、最終的な目的としてヴェーダ文献群のテクスト間の言語的・内容的な関係を明らかにすることを定めている。デジタルテクストの整備とは主に以下のような情報をテクストに付与することである：(1) デジタルテクストのもとになった刊本情報、(2) テクスト内の章・節・段落・文など一定単位における文書情報（=章番号や韻文/散文の別など）、(3) 単語の形態情報。本研究は既存の利用可能なデジタルテクストを加工する方針を取っており、対象は4ヴェーダ（リグヴェーダ、サーマヴェーダ、ヤジュルヴェーダ、アタルヴァヴェーダ）のサンヒターおよびブラーフマナに限っている。既存のテクストデータベースには(1)の書誌情報が既に記載されており、デジタル化の作業者/責任者が明記されているため、本研究によって追加する情報はない。(2) については、章番号や節番号のような自動的に付与できる情報は完了している。また、別プロジェクト（国際共同研究加速基金(国際共同研究強化(B))「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」研究代表者：天野恭子）の成果を活用することで、一部のヴェーダ文献は祭式に関する詳細な注釈の付与が可能になった。(3)形態情報について、計算機による自動付与にあたって既存のツールの改良を行っており、情報付与自体は未着手である。テクスト分析の手法にかんして、一手法として韻律構造によるテクスト比較が有効であることをリグヴェーダで確認した。これは、数千数万にのぼる種類の単語（あるいは文字列）の並びであるテクストを、4種類の韻律要素（=軽音節、重音節、単語境界、詩行境界）の並びに置き換えることにより、テクスト間の類似性を分析するものである。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由デジタルテクストの整備にあたっては、(1)刊本の情報、(2)章・節・段落・文などの情報、(3) 単語の形態情報がさしあたり必要なものである。既存のデジタルテクストを利用することで(1)、(2)はある程度自動で作業が行えた。(3)は、同じように情報を自動で付与するために、まずツールの改良に着手した。テクスト分析には、n-gram分析、単語や文の分散表現による類似度計算、言語モデルを用いた分析など順当な手法の検討を行った。それと並行して、リグヴェーダを対象に韻律構造にのみ着目した比較を行った。韻律構造による分析はもともとラテン語詩で行われていたが、ラテン語とサンスクリット語（ヴェーダ語）との韻律計算の類似性から、ヴェーダにおいても同様の分析の可能性を見出し、実際に有効性を確かめた。
今後の研究の推進方策	単語の形態情報付与は技術的な作業の段階の次に、人による評価が必要である。機械学習ベースの単語の形態情報自動付与は、誤りを含むものであるため、最終的に人が目を通すことにより修正することになる。ここで単語の形態情報を定めるということは、半ば文自体の読みを確定させることでもあり、純粋に文献学的な作業となる。これから得られる人による読みをデジタルテクストへアノテーションすることにより、デジタルテクストの情報の深みを増やしつつ共有可能なものにする。また、本研究が整備するデジタルテクストに対して、本研究の過程で生じる誤りや依拠するデジタルテクストから継承する誤りは避けて通れない。誤りの検証および修正作業は、デジタルテクストそのものと、もととなった刊本の画像との対応付けによって従来よりも容易になる。そのことを念頭におき、刊本（画像）のどの位置にテクストが相当するかを第4の情報として付与する必要がある。これは、光学文字認識によって画像から文字を読み取り、対応するテクストを探索することで遂行される。
次年度使用額が生じた理由	テクスト分析のために必要なコンピュータの購入を延期した。採用するテクスト分析の手法を確定し次第、十分な機能をもったコンピュータを次年度に購入する予定である。また、計画していた学会発表の変更に伴い、旅費としても次年度使用額が生じている。次年度において当初計画していた学会発表に加えて、テクスト整備にかんするインフラ部分についても関連学会での成果発表を予定している。