• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

ヴェーダ文献テクストの構造化およびテクスト間の言語的関係の解明

Research Project

Project/Area Number 23K18646
Research InstitutionThe University of Tokyo

Principal Investigator

塚越 柚季  東京大学, 大学院人文社会系研究科(文学部), 助教 (30981782)

Project Period (FY) 2023-08-31 – 2025-03-31
Keywordsヴェーダ / 韻律 / 構造化テクスト
Outline of Annual Research Achievements

本研究は、準備段階としてデジタルテクストの整備を行い、最終的な目的としてヴェーダ文献群のテクスト間の言語的・内容的な関係を明らかにすることを定めている。デジタルテクストの整備とは主に以下のような情報をテクストに付与することである:(1) デジタルテクストのもとになった刊本情報、(2) テクスト内の章・節・段落・文など一定単位における文書情報(=章番号や韻文/散文の別など)、(3) 単語の形態情報。
本研究は既存の利用可能なデジタルテクストを加工する方針を取っており、対象は4ヴェーダ(リグヴェーダ、サーマヴェーダ、ヤジュルヴェーダ、アタルヴァヴェーダ)のサンヒターおよびブラーフマナに限っている。既存のテクストデータベースには(1)の書誌情報が既に記載されており、デジタル化の作業者/責任者が明記されているため、本研究によって追加する情報はない。(2) については、章番号や節番号のような自動的に付与できる情報は完了している。また、別プロジェクト(国際共同研究加速基金(国際共同研究強化(B))「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」研究代表者:天野 恭子)の成果を活用することで、一部のヴェーダ文献は祭式に関する詳細な注釈の付与が可能になった。(3)形態情報について、計算機による自動付与にあたって既存のツールの改良を行っており、情報付与自体は未着手である。
テクスト分析の手法にかんして、一手法として韻律構造によるテクスト比較が有効であることをリグヴェーダで確認した。これは、数千数万にのぼる種類の単語(あるいは文字列)の並びであるテクストを、4種類の韻律要素(=軽音節、重音節、単語境界、詩行境界)の並びに置き換えることにより、テクスト間の類似性を分析するものである。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

デジタルテクストの整備にあたっては、(1)刊本の情報、(2)章・節・段落・文などの情報、(3) 単語の形態情報がさしあたり必要なものである。既存のデジタルテクストを利用することで(1)、(2)はある程度自動で作業が行えた。(3)は、同じように情報を自動で付与するために、まずツールの改良に着手した。
テクスト分析には、n-gram分析、単語や文の分散表現による類似度計算、言語モデルを用いた分析など順当な手法の検討を行った。それと並行して、リグヴェーダを対象に韻律構造にのみ着目した比較を行った。韻律構造による分析はもともとラテン語詩で行われていたが、ラテン語とサンスクリット語(ヴェーダ語)との韻律計算の類似性から、ヴェーダにおいても同様の分析の可能性を見出し、実際に有効性を確かめた。

Strategy for Future Research Activity

単語の形態情報付与は技術的な作業の段階の次に、人による評価が必要である。機械学習ベースの単語の形態情報自動付与は、誤りを含むものであるため、最終的に人が目を通すことにより修正することになる。ここで単語の形態情報を定めるということは、半ば文自体の読みを確定させることでもあり、純粋に文献学的な作業となる。これから得られる人による読みをデジタルテクストへアノテーションすることにより、デジタルテクストの情報の深みを増やしつつ共有可能なものにする。
また、本研究が整備するデジタルテクストに対して、本研究の過程で生じる誤りや依拠するデジタルテクストから継承する誤りは避けて通れない。誤りの検証および修正作業は、デジタルテクストそのものと、もととなった刊本の画像との対応付けによって従来よりも容易になる。そのことを念頭におき、刊本(画像)のどの位置にテクストが相当するかを第4の情報として付与する必要がある。これは、光学文字認識によって画像から文字を読み取り、対応するテクストを探索することで遂行される。

Causes of Carryover

テクスト分析のために必要なコンピュータの購入を延期した。採用するテクスト分析の手法を確定し次第、十分な機能をもったコンピュータを次年度に購入する予定である。また、計画していた学会発表の変更に伴い、旅費としても次年度使用額が生じている。次年度において当初計画していた学会発表に加えて、テクスト整備にかんするインフラ部分についても関連学会での成果発表を予定している。

  • Research Products

    (3 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] 『リグ・ヴェーダ』の文書間類似度比較:機械学習とn-gram分析による詩人の言語使用の特定2024

    • Author(s)
      塚越 柚季
    • Journal Title

      情報処理学会論文誌

      Volume: 65 Pages: 348~355

    • DOI

      10.20729/00232299

    • Peer Reviewed
  • [Presentation] サンスクリット文献『リグ・ヴェーダ』の韻律構造にもとづく クラスタ分析2024

    • Author(s)
      塚越柚季
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] デジタルサンスクリット辞書によって追加学習された大規模言語モデルを用いたサンスクリット辞書の横断検索2023

    • Author(s)
      塚越柚季
    • Organizer
      第133回 人文科学とコンピュータ研究発表会

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi