2020 Fiscal Year Research-status Report

Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature

Research Project

Project/Area Number	20K20697
Research Institution	Kyoto University
Principal Investigator	天野恭子京都大学, 白眉センター, 特定准教授 (80343250)
Project Period (FY)	2020-07-30 – 2023-03-31
Keywords	古代インド / ヴェーダ / マイトラーヤニー・サンヒター / データベース / SanskritTagger / DCS / XMLデータ
Outline of Annual Research Achievements	本研究は、マイトラーヤニー・サンヒターの文法解析付きデータの作成を目的としている。このデータは現在約260のサンスクリット語文献の文法解析データを蓄積するデータバンクであるDigital Corpus of Sanskrit（DCS）に組み入れられる。マイトラーヤニー・サンヒターのデータベース作成は、この文献の自動解析を前提としているが、そこに既に第一の問題がある。それは、マイトラーヤニー・サンヒターの伝承においては語や文の切れ目が記されていないこと、さらに、語と語の接触によって起こる音変化・音融合によって語形が不明瞭になるというサンスクリット語ならではの事情により、自動解析が非常に困難だということである。Oliver Hellwigにより開発され、機械学習により改良中であるSanskritTaggerは、サンスクリット語の自動文法解析を可能にしたが、サンスクリット文献の中でも古層に属するマイトラーヤニー・サンヒターの解析は依然精度は高くなく、専門研究者による訂正の作業が不可欠である。つまり、データベースを作成するためには、1. SanskritTaggerによるマイトラーヤニー・サンヒターの自動解析、2. その解析結果のチェックと訂正、3. 訂正をデータに反映し、データベース（DCS）に組み入れる、という過程が必要である。1.と3.の過程は、プログラムとデータベースの管理者であるHellwigが担当し、2.の過程を、マイトラーヤニー・サンヒターの解読を専門としている天野が受け持つ。しかしながら、SanskritTaggerおよびDCSはuser interface仕様を持たず、共同での作業が不可能であった。そこで本年度は、共同作業を可能にする作業用ウェブサイトをDCSに加えることを行い作業を可能にし、データ作成を開始した。データ作成作業は全体の5分の２を完成した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 研究は当初の計画以上に進展している。研究初年度の本年、最初の課題は上で述べた一連の作業を複数の研究者と研究補助者で共同して行うための、ウェブ・インターフェース仕様の作成であった。この作業は３か月程でほぼ完成したが、そのシステムを実際に使ってデータを作成する作業がどれくらい上手くいくかは未知数であった。プログラムはマイトラーヤニー・サンヒターを自動解析し、語彙の原形、品詞、性・数・格（名詞）あるいは人称・数・時制・法・態（動詞）を、確からしいものから順番に提示する。音変化の影響もあるため、多くの場合、複数の語彙や文法形が候補に挙がる。その際、プログラムが一番に提示するものが正しいとは限らないが、その場合は他の選択肢を選ぶことができるように設定されており、他の選択肢を選ぶ作業も非常にスムーズに進めることができている。正しい語形が、プログラムによって提示されていない場合は、メモとして残し、それをHellwigが手作業で入力し、機械学習にかける、ということがなされる。どの程度スムーズに進むか未知数であったこの作業が、思いの外問題なく進捗し、本年度中にマイトラーヤニー・サンヒターの５分の２に相当する部分をデータベースに組み入れることができた。研究代表者が担当しているこの上述2.の作業過程、解析結果のチェックと訂正は、このシステムの問題の他にも、そもそもこの作業自体の持つ困難さを抱えていた。というのも、この作業はマイトラーヤニー・サンヒターそのものの読解を前提としているが、本文献はその古さ故に読解が大変難しく、全訳も存在しない。同文献を読解できる専門知識のある研究者しかこの作業を行うことができないが、研究代表者が一人で作業を行うのは時間がかかりすぎる。そこにポスドク研究者である伏見誠の協力を得ることができ、この作業を強力に推進できるようになり、データベース化が順調に進んでいる。
Strategy for Future Research Activity	本研究の２年目は、現在行っているデータ作成を継続して行う。作業は極めて順調に進捗していることから、このまま問題なくデータ作成が進むものと考えられる。２年目の終わりには、マイトラーヤニー・サンヒターの全体の５分の４のデータ構築が完了している見込みである。伏見氏は解析結果のチェックと訂正を引き続き行う。サイトの管理者は、サイトのサーバを管理し、上述の1.と3.の作業を日常的に行うため、その費用を支払う。本研究の３年目は、マイトラーヤニー・サンヒターのデータを完成させる。すべての解析とその訂正を終え、データとして完成した後,再度全体を俯瞰して、データとしての完成度を高める。間違いの訂正、フォーマットの不揃いの訂正等である。これをもって、この研究課題の完成とすることができる。もし３年目に時間の余裕があれば、文法解析データにさらに詳細な情報を加えることができるか検討したい。例えば、現状では動詞の時制として「現在形」と記述されているものについて、さらに詳しい用法（普遍的事実、規定、効果）などを組み入れることができないかを検討したい。これらの語法は現状の自動解析では割り出せないが、このデータを用いて今後文体の分析や年代・方言の推定を行うことを考えれば、このような詳細な情報は有用であると考えられるからである。このように３年目には、完成したデータの実際の使用を視野に入れて、データの改良に踏み込みたい。

Research Products
(6 results)

All 2021 2020 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) (of which Invited: 1 results) Remarks (1 results) Funded Workshop (1 results)

[Journal Article] What is 'knowledge' justifying a ritual action? Uses of ya evam veda / ya evam vidvan in the Maitrayani Samhita2020
- Author(s)
  Kyoko Amano
- Journal Title
  
  Collection Religions, Comparatisme - Histoire = Anthropologie
  
  Volume: 10 Pages: 39-68
- Peer Reviewed
[Presentation] Problems in the Formation of the Vedas, Ancient Indian Religious Texts2021
- Author(s)
  Kyoko Amano
- Organizer
  Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature
[Presentation] Relationship Among Vedic Schools Deciphered by the Visualization of Mantra Collocation2021
- Author(s)
  Kyoko Amano
- Organizer
  Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature
[Presentation] Diversity of Vedic ritual. Its different origins, innovations and the composition of the canons2021
- Author(s)
  Kyoko Amano
- Organizer
  Letture Vediche: Il dono: croce e delizia dei brahmani
- Invited
[Remarks] データ駆動型科学が解き明かす古代インド文献の時空間的特徴
- URL
  https://ancientindia-datascience.hakubi.kyoto-u.ac.jp/
[Funded Workshop] Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature.2021

2020 Fiscal Year Research-status Report

Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature

Principal Investigator

天野 恭子 京都大学, 白眉センター, 特定准教授 (80343250)

Current Status of Research Progress

Reason

Research Products

[Journal Article] What is 'knowledge' justifying a ritual action? Uses of ya evam veda / ya evam vidvan in the Maitrayani Samhita2020

Author(s)

Journal Title

[Presentation] Problems in the Formation of the Vedas, Ancient Indian Religious Texts2021

Author(s)

Organizer

[Presentation] Relationship Among Vedic Schools Deciphered by the Visualization of Mantra Collocation2021

Author(s)

Organizer

[Presentation] Diversity of Vedic ritual. Its different origins, innovations and the composition of the canons2021

Author(s)

Organizer

[Remarks] データ駆動型科学が解き明かす古代インド文献の時空間的特徴

URL

[Funded Workshop] Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature.2021

天野恭子京都大学, 白眉センター, 特定准教授 (80343250)