2020 年度実施状況報告書

古代インド文献成立過程解明に向けた文体計量分析のためのデータベース構築

研究課題

研究課題/領域番号	20K20697
研究機関	京都大学
研究代表者	天野恭子京都大学, 白眉センター, 特定准教授 (80343250)
研究期間 (年度)	2020-07-30 – 2023-03-31
キーワード	古代インド / ヴェーダ / マイトラーヤニー・サンヒター / データベース / SanskritTagger / DCS / XMLデータ
研究実績の概要	本研究は、マイトラーヤニー・サンヒターの文法解析付きデータの作成を目的としている。このデータは現在約260のサンスクリット語文献の文法解析データを蓄積するデータバンクであるDigital Corpus of Sanskrit（DCS）に組み入れられる。マイトラーヤニー・サンヒターのデータベース作成は、この文献の自動解析を前提としているが、そこに既に第一の問題がある。それは、マイトラーヤニー・サンヒターの伝承においては語や文の切れ目が記されていないこと、さらに、語と語の接触によって起こる音変化・音融合によって語形が不明瞭になるというサンスクリット語ならではの事情により、自動解析が非常に困難だということである。Oliver Hellwigにより開発され、機械学習により改良中であるSanskritTaggerは、サンスクリット語の自動文法解析を可能にしたが、サンスクリット文献の中でも古層に属するマイトラーヤニー・サンヒターの解析は依然精度は高くなく、専門研究者による訂正の作業が不可欠である。つまり、データベースを作成するためには、1. SanskritTaggerによるマイトラーヤニー・サンヒターの自動解析、2. その解析結果のチェックと訂正、3. 訂正をデータに反映し、データベース（DCS）に組み入れる、という過程が必要である。1.と3.の過程は、プログラムとデータベースの管理者であるHellwigが担当し、2.の過程を、マイトラーヤニー・サンヒターの解読を専門としている天野が受け持つ。しかしながら、SanskritTaggerおよびDCSはuser interface仕様を持たず、共同での作業が不可能であった。そこで本年度は、共同作業を可能にする作業用ウェブサイトをDCSに加えることを行い作業を可能にし、データ作成を開始した。データ作成作業は全体の5分の２を完成した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由研究は当初の計画以上に進展している。研究初年度の本年、最初の課題は上で述べた一連の作業を複数の研究者と研究補助者で共同して行うための、ウェブ・インターフェース仕様の作成であった。この作業は３か月程でほぼ完成したが、そのシステムを実際に使ってデータを作成する作業がどれくらい上手くいくかは未知数であった。プログラムはマイトラーヤニー・サンヒターを自動解析し、語彙の原形、品詞、性・数・格（名詞）あるいは人称・数・時制・法・態（動詞）を、確からしいものから順番に提示する。音変化の影響もあるため、多くの場合、複数の語彙や文法形が候補に挙がる。その際、プログラムが一番に提示するものが正しいとは限らないが、その場合は他の選択肢を選ぶことができるように設定されており、他の選択肢を選ぶ作業も非常にスムーズに進めることができている。正しい語形が、プログラムによって提示されていない場合は、メモとして残し、それをHellwigが手作業で入力し、機械学習にかける、ということがなされる。どの程度スムーズに進むか未知数であったこの作業が、思いの外問題なく進捗し、本年度中にマイトラーヤニー・サンヒターの５分の２に相当する部分をデータベースに組み入れることができた。研究代表者が担当しているこの上述2.の作業過程、解析結果のチェックと訂正は、このシステムの問題の他にも、そもそもこの作業自体の持つ困難さを抱えていた。というのも、この作業はマイトラーヤニー・サンヒターそのものの読解を前提としているが、本文献はその古さ故に読解が大変難しく、全訳も存在しない。同文献を読解できる専門知識のある研究者しかこの作業を行うことができないが、研究代表者が一人で作業を行うのは時間がかかりすぎる。そこにポスドク研究者である伏見誠の協力を得ることができ、この作業を強力に推進できるようになり、データベース化が順調に進んでいる。
今後の研究の推進方策	本研究の２年目は、現在行っているデータ作成を継続して行う。作業は極めて順調に進捗していることから、このまま問題なくデータ作成が進むものと考えられる。２年目の終わりには、マイトラーヤニー・サンヒターの全体の５分の４のデータ構築が完了している見込みである。伏見氏は解析結果のチェックと訂正を引き続き行う。サイトの管理者は、サイトのサーバを管理し、上述の1.と3.の作業を日常的に行うため、その費用を支払う。本研究の３年目は、マイトラーヤニー・サンヒターのデータを完成させる。すべての解析とその訂正を終え、データとして完成した後,再度全体を俯瞰して、データとしての完成度を高める。間違いの訂正、フォーマットの不揃いの訂正等である。これをもって、この研究課題の完成とすることができる。もし３年目に時間の余裕があれば、文法解析データにさらに詳細な情報を加えることができるか検討したい。例えば、現状では動詞の時制として「現在形」と記述されているものについて、さらに詳しい用法（普遍的事実、規定、効果）などを組み入れることができないかを検討したい。これらの語法は現状の自動解析では割り出せないが、このデータを用いて今後文体の分析や年代・方言の推定を行うことを考えれば、このような詳細な情報は有用であると考えられるからである。このように３年目には、完成したデータの実際の使用を視野に入れて、データの改良に踏み込みたい。

研究成果
(6件)

すべて 2021 2020 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) (うち招待講演 1件) 備考 (1件) 学会・シンポジウム開催 (1件)

[雑誌論文] What is 'knowledge' justifying a ritual action? Uses of ya evam veda / ya evam vidvan in the Maitrayani Samhita2020
- 著者名/発表者名
  Kyoko Amano
- 雑誌名
  
  Collection Religions, Comparatisme - Histoire = Anthropologie
  
  巻: 10 ページ: 39-68
- 査読あり
[学会発表] Problems in the Formation of the Vedas, Ancient Indian Religious Texts2021
- 著者名/発表者名
  Kyoko Amano
- 学会等名
  Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature
[学会発表] Relationship Among Vedic Schools Deciphered by the Visualization of Mantra Collocation2021
- 著者名/発表者名
  Kyoko Amano
- 学会等名
  Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature
[学会発表] Diversity of Vedic ritual. Its different origins, innovations and the composition of the canons2021
- 著者名/発表者名
  Kyoko Amano
- 学会等名
  Letture Vediche: Il dono: croce e delizia dei brahmani
- 招待講演
[備考] データ駆動型科学が解き明かす古代インド文献の時空間的特徴
- URL
  https://ancientindia-datascience.hakubi.kyoto-u.ac.jp/
[学会・シンポジウム開催] Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature.2021

2020 年度 実施状況報告書

古代インド文献成立過程解明に向けた文体計量分析のためのデータベース構築

研究代表者

天野 恭子 京都大学, 白眉センター, 特定准教授 (80343250)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] What is 'knowledge' justifying a ritual action? Uses of ya evam veda / ya evam vidvan in the Maitrayani Samhita2020

著者名/発表者名

雑誌名

[学会発表] Problems in the Formation of the Vedas, Ancient Indian Religious Texts2021

著者名/発表者名

学会等名

[学会発表] Relationship Among Vedic Schools Deciphered by the Visualization of Mantra Collocation2021

著者名/発表者名

学会等名

[学会発表] Diversity of Vedic ritual. Its different origins, innovations and the composition of the canons2021

著者名/発表者名

学会等名

[備考] データ駆動型科学が解き明かす古代インド文献の時空間的特徴

URL

[学会・シンポジウム開催] Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature.2021

2020 年度実施状況報告書

天野恭子京都大学, 白眉センター, 特定准教授 (80343250)