研究課題
従来の言語データ処理は中間処理データの膨大さによる計算限界があったため、小規模文献の分析に終始してきた。しかし、芝野がグーグルのビッグデータ処理技法MapReduce (2004年)を用いて新技法として開発したフレ-ズ自動抽出法は、すべての「フレーズ」(連続する単語群)の抽出を初めて可能にした。すなわち通常のNgram分析は4gram等の特定のNgramを利用するのに対し、芝野の統合Ngram分析は、一文に含まれるすべてのNgramを生成し、その中から重複を排除した出現文リストを作成し、さらに出現文リストが同一の場合、最長のNgram以外を削除することによって、Formulaic Sequencesを抽出する。このアルゴリズムによってそれぞれの文献固有のフレーズ表現を抽出することが可能となった。得られる情報は、1.ユニークフレーズ:Ngram、頻度、出現文リスト、2.重複リスト:Ngram、削除Ngram、である。例えば『リグ・ヴェーダ』の場合、雷神インドラを形容する常套句 nRtamaM vAjasAtau「戦利品獲得において最も豪胆な」がヴィシュヴァーミトラ家の歌集(すなわち3巻)特有のものであること、また後代に付加された10巻にはこれを真似たものがあることなど、フレーズ抽出法に基づいて作成されたインデックスは『リグ・ヴェーダ』成立の歴史的過程を一目で彷彿させるデータに満ちている。ほぼすべてが大まかな成立時期しか判っておらず、また一文献内に制作時期の異なる諸層が混在することの多いインド古典、パーリ仏典等にとって、フレーズ分析が必須ツールとなり、成立過程が明確化されることによってその内容理解が格段に進展することが見込まれる。
すべて 2020 2019 その他
すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 1件、 オープンアクセス 1件) 学会発表 (5件) (うち国際学会 2件、 招待講演 3件) 備考 (1件)
DH(Digital Humanities), Budapest 2019
巻: 1 ページ: 未定
日仏東洋学会通信
巻: 43 ページ: 29-46
http://www.classics.jp/sofjeo/