2021 Fiscal Year Research-status Report
Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature
Project/Area Number |
20K20697
|
Research Institution | Kyoto University |
Principal Investigator |
天野 恭子 京都大学, 白眉センター, 特定准教授 (80343250)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | 古代インド / ヴェーダ / マイトラーヤニー・サンヒター / データベース / コーパス / 言語分析 / XMLデータ / サンスクリット |
Outline of Annual Research Achievements |
古代インドのヴェーダ文献は、言語の古さや資料の豊富さ故に、言語研究にとっても歴史研究にとっても、非常な重要な資料を供する。人文情報学の分野で開発されている様々な言語分析、文献分析を利用すれば、ヴェーダ時代の社会について大きく理解が進むと考えられるが、分析の基となるデータベースが現状では貧弱である。それは、ヴェーダ語の複雑さにより、自然言語処理の手法での自動解析が困難なことによる。この情報を打破するべく、ドイツ、デュッセルドルフ大学のOliver Hellwigが、単語の切れ目の解釈、個々の単語の可能な文法形の選択肢を示すプログラムを開発した。正しい解釈をプログラムが完全に提示することはできず、専門の研究者が正しい解釈を選択し、あるいはプログラムの解釈を訂正することで、データを作成できる。この過程を、天野とHellwigが共同でシステム化し、ウェブ上での一連の共同作業を可能にした。 このシステムを稼働させることでデータベース構築を進めている。本年度は、マイトラーヤニー・サンヒターおよびカータカ・サンヒターのデータ化を行った。両文献とも、全訳の存在しない未解読文献であり、多くの難読箇所を含んでいる。このような文献の文法解析データ作成は、ヴェーダ文献の専門家にしかなし得ない。本プロジェクトでは、ヴェーダ文献を専門に研究してきた伏見誠氏の協力を得て、データ作成を進めている。 これらの文献は、古代インド文献の中で、最古の散文を含んでいる。すでにこれまでにデータ化されているリグヴェーダ、アタルヴァヴェーダは韻文である。より通常の言語に近い統語構造を知るためには散文の研究が不可欠であり、最古の散文のマイトラーヤニー・サンヒターおよびカータカ・サンヒターを研究に利用できることは、統語論分野の研究を大きく発展させるものである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データベース構築には、1)文法解析プログラムにかける基データの整備、2)文法解析プログラムにかける、3)解析結果のチェック・訂正、4)訂正を反映しデータを完成する、5)XML/TEI形式によりデータ公開、の作業過程が含まれる。このうち、1)3)を天野が、2)4)5)をHellwigが担当し、ウェブ上で交互にデータをやり取りしながらデータ構築を進めている。この過程を、プロジェクト一年目(2020年度)に確立し、本年度はこのフローをいわばフル稼働で動かし、データ構築を進めた。なお、1)基データについてはすでに十分に準備し、2)以降の作業に備えている。 本年度は、この手順でデータ構築を進め、マイトラーヤニー・サンヒターの大部分、カータカ・サンヒターの一部の章を、データ化した。これらの両文献の中で特に、祭式解釈を述べた散文章を中心にデータ化を行った。それは、本プロジェクトと協働し、ヴェーダ文献の文体分析、年代推定を行うプロジェクト(国際共同研究強化(B)課題番号:21KK0004 『ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発』)において散文の語彙・統語論分析を進めるためであり、この研究に貢献しつつ、効果的にデータベース構築を進めることができた。 なお、これまでに構築したデータベース構築フローにおいて、重大な欠陥は見出されず、極めて順調に作業が進捗している。天野およびHellwigのチーム双方が、作業に習熟してきたため、今後の作業はさらに加速して進捗するものと思われる。
|
Strategy for Future Research Activity |
2022年度も、これまでに確立した作業フローによって、データベース構築作業を進めてゆく。基本的なデータ作成方法を大きく変化させることはないと予想されるが、個別の事項については改良・充実を検討したい部分もある。それは、これまで組み入れられていなかった、文のタイプの分類や、機能語の機能の細分化等である。これを、文法解析データに、新たな分類事項として加えることができるかどうか、Hellwigと協議する予定である。2022年度は研究代表者がドイツのHellwigの研究室に出向き、詳しく協議を行う。それにより、より有効な語彙・統語論分析に適したデータ作りを発展させることができると考えている。 データ化の対象としては、引き続き、カータカ・サンヒターの散文章のデータ化を進め、さらに、同時代の文献タイッティリーヤ・サンヒターから、カータカ・サンヒターの散文章に対応する章のデータ化を進める。これにより、マイトラーヤニー・サンヒター、カータカ・サンヒター、タイッティリーヤ・サンヒターという、同時代の三つの文献の語彙・文体の比較を進めることができ、文献成立状況の解明へと研究を発展させることができると期待される。 本プロジェクトは2022年度が最終年度であり、これらの古層ヴェーダ祭式文献の散文部分について、まとまった量のデータ化を達成できると考えている。しかし、膨大なヴェーダ文献の全体からすれば、これらはまだ一部であり、データ化できていない文献も多く残されている。残された文献のデータ化は、本研究を引き継いで、前述の国際共同研究強化(B)の枠内で行われる。
|
Research Products
(13 results)