2020 Fiscal Year Research-status Report
Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature
Project/Area Number |
20K20697
|
Research Institution | Kyoto University |
Principal Investigator |
天野 恭子 京都大学, 白眉センター, 特定准教授 (80343250)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | 古代インド / ヴェーダ / マイトラーヤニー・サンヒター / データベース / SanskritTagger / DCS / XMLデータ |
Outline of Annual Research Achievements |
本研究は、マイトラーヤニー・サンヒターの文法解析付きデータの作成を目的としている。このデータは現在約260のサンスクリット語文献の文法解析データを蓄積するデータバンクであるDigital Corpus of Sanskrit(DCS)に組み入れられる。マイトラーヤニー・サンヒターのデータベース作成は、この文献の自動解析を前提としているが、そこに既に第一の問題がある。それは、マイトラーヤニー・サンヒターの伝承においては語や文の切れ目が記されていないこと、さらに、語と語の接触によって起こる音変化・音融合によって語形が不明瞭になるというサンスクリット語ならではの事情により、自動解析が非常に困難だということである。Oliver Hellwigにより開発され、機械学習により改良中であるSanskritTaggerは、サンスクリット語の自動文法解析を可能にしたが、サンスクリット文献の中でも古層に属するマイトラーヤニー・サンヒターの解析は依然精度は高くなく、専門研究者による訂正の作業が不可欠である。 つまり、データベースを作成するためには、1. SanskritTaggerによるマイトラーヤニー・サンヒターの自動解析、2. その解析結果のチェックと訂正、3. 訂正をデータに反映し、データベース(DCS)に組み入れる、という過程が必要である。1.と3.の過程は、プログラムとデータベースの管理者であるHellwigが担当し、2.の過程を、マイトラーヤニー・サンヒターの解読を専門としている天野が受け持つ。しかしながら、SanskritTaggerおよびDCSはuser interface仕様を持たず、共同での作業が不可能であった。そこで本年度は、共同作業を可能にする作業用ウェブサイトをDCSに加えることを行い作業を可能にし、データ作成を開始した。データ作成作業は全体の5分の2を完成した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究は当初の計画以上に進展している。研究初年度の本年、最初の課題は上で述べた一連の作業を複数の研究者と研究補助者で共同して行うための、ウェブ・インターフェース仕様の作成であった。この作業は3か月程でほぼ完成したが、そのシステムを実際に使ってデータを作成する作業がどれくらい上手くいくかは未知数であった。プログラムはマイトラーヤニー・サンヒターを自動解析し、語彙の原形、品詞、性・数・格(名詞)あるいは人称・数・時制・法・態(動詞)を、確からしいものから順番に提示する。音変化の影響もあるため、多くの場合、複数の語彙や文法形が候補に挙がる。その際、プログラムが一番に提示するものが正しいとは限らないが、その場合は他の選択肢を選ぶことができるように設定されており、他の選択肢を選ぶ作業も非常にスムーズに進めることができている。正しい語形が、プログラムによって提示されていない場合は、メモとして残し、それをHellwigが手作業で入力し、機械学習にかける、ということがなされる。どの程度スムーズに進むか未知数であったこの作業が、思いの外問題なく進捗し、本年度中にマイトラーヤニー・サンヒターの5分の2に相当する部分をデータベースに組み入れることができた。 研究代表者が担当しているこの上述2.の作業過程、解析結果のチェックと訂正は、このシステムの問題の他にも、そもそもこの作業自体の持つ困難さを抱えていた。というのも、この作業はマイトラーヤニー・サンヒターそのものの読解を前提としているが、本文献はその古さ故に読解が大変難しく、全訳も存在しない。同文献を読解できる専門知識のある研究者しかこの作業を行うことができないが、研究代表者が一人で作業を行うのは時間がかかりすぎる。そこにポスドク研究者である伏見誠の協力を得ることができ、この作業を強力に推進できるようになり、データベース化が順調に進んでいる。
|
Strategy for Future Research Activity |
本研究の2年目は、現在行っているデータ作成を継続して行う。作業は極めて順調に進捗していることから、このまま問題なくデータ作成が進むものと考えられる。2年目の終わりには、マイトラーヤニー・サンヒターの全体の5分の4のデータ構築が完了している見込みである。伏見氏は解析結果のチェックと訂正を引き続き行う。サイトの管理者は、サイトのサーバを管理し、上述の1.と3.の作業を日常的に行うため、その費用を支払う。 本研究の3年目は、マイトラーヤニー・サンヒターのデータを完成させる。すべての解析とその訂正を終え、データとして完成した後,再度全体を俯瞰して、データとしての完成度を高める。間違いの訂正、フォーマットの不揃いの訂正等である。これをもって、この研究課題の完成とすることができる。もし3年目に時間の余裕があれば、文法解析データにさらに詳細な情報を加えることができるか検討したい。例えば、現状では動詞の時制として「現在形」と記述されているものについて、さらに詳しい用法(普遍的事実、規定、効果)などを組み入れることができないかを検討したい。これらの語法は現状の自動解析では割り出せないが、このデータを用いて今後文体の分析や年代・方言の推定を行うことを考えれば、このような詳細な情報は有用であると考えられるからである。このように3年目には、完成したデータの実際の使用を視野に入れて、データの改良に踏み込みたい。
|
Research Products
(6 results)