2019 Fiscal Year Annual Research Report
Construction of archives of Indian classics with phrase index by means of corpus based extraction of formulaic sequences
Project/Area Number |
16K12544
|
Research Institution | Ryukoku University |
Principal Investigator |
中谷 英明 龍谷大学, 公立大学の部局等, 研究員 (20140395)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | インド古典 / フレーズ抽出 / テキスト成立階層 / リグ・ヴェーダ / Ngram / MapReduce / パーリ仏典 / アーカイブ |
Outline of Annual Research Achievements |
従来の言語データ処理は中間処理データの膨大さによる計算限界があったため、小規模文献の分析に終始してきた。しかし、芝野がグーグルのビッグデータ処理技法MapReduce (2004年)を用いて新技法として開発したフレ-ズ自動抽出法は、すべての「フレーズ」(連続する単語群)の抽出を初めて可能にした。すなわち通常のNgram分析は4gram等の特定のNgramを利用するのに対し、芝野の統合Ngram分析は、一文に含まれるすべてのNgramを生成し、その中から重複を排除した出現文リストを作成し、さらに出現文リストが同一の場合、最長のNgram以外を削除することによって、Formulaic Sequencesを抽出する。このアルゴリズムによってそれぞれの文献固有のフレーズ表現を抽出することが可能となった。得られる情報は、1.ユニークフレーズ:Ngram、頻度、出現文リスト、2.重複リスト:Ngram、削除Ngram、である。 例えば『リグ・ヴェーダ』の場合、雷神インドラを形容する常套句 nRtamaM vAjasAtau「戦利品獲得において最も豪胆な」がヴィシュヴァーミトラ家の歌集(すなわち3巻)特有のものであること、また後代に付加された10巻にはこれを真似たものがあることなど、フレーズ抽出法に基づいて作成されたインデックスは『リグ・ヴェーダ』成立の歴史的過程を一目で彷彿させるデータに満ちている。ほぼすべてが大まかな成立時期しか判っておらず、また一文献内に制作時期の異なる諸層が混在することの多いインド古典、パーリ仏典等にとって、フレーズ分析が必須ツールとなり、成立過程が明確化されることによってその内容理解が格段に進展することが見込まれる。
|
Research Products
(8 results)