インド古典文献研究の基礎作業支援環境の構築─ウダヤナ文献研究における実践を通して
Project/Area Number |
22K18453
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 1:Philosophy, art, and related fields
|
Research Institution | Nagoya University |
Principal Investigator |
岩崎 陽一 名古屋大学, 人文学研究科, 准教授 (40616546)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 文献学 / 異読 / 電子化 / 自動化 / 異読検出 / 発見支援 |
Outline of Research at the Start |
人工知能により人間の仕事が奪われる、という未来予測は悲観的な響きを伴って語られることが多いが、古典文献研究者としてはその未来に希望をもっている。日頃の研究において膨大な時間を割かねばならない基礎作業の多くを機会に任せ、自分自身は機械にできない高度な知的作業に注力できるようになるからである。その来るべき未来に向けて、本研究は、サンスクリット語文献の解読において必要となる作業(1)刊本の異読整理、(2)並行句・類似表現発見について、自動化または作業支援の環境を開発することを目的とする。
|
Outline of Annual Research Achievements |
本研究は(1)異読整理の支援(2)関連文献の発見の技術的支援を目的としている。(1)に関する研究は前年度に集中的に行ったが、本年度はそれを継続し、既成プログラムの試用・評価を試みたところ、KDiff3が特に利便性が高いことが分かり、自作プログラムと併用するかたちで文献研究に利用した。本年度は(2)の研究を重点的に行ったが、本年度からデータ科学者との研究連携を深め、またテキストマイニング技術を習得したことにより、研究の方針を大きく変更した。すなわち、当初は関連文献の発見にApache Solr等での文字列検索を行うことを想定していたが、統計分析技術を用いることにした。これにより、OCRで得た電子テキストの読み取りエラー訂正も必要なくなり、研究が大幅に加速した。取得した電子テキストをN-gramで分割し、jaccard係数やコサイン類似度等の指標、また文字列検索により類似度を判定し、関連文献を検索するプログラムを作成したところ、実用性の高い結果が得られた。実際に、このプログラムを利用した読解を、ウダヤナの文献を解読する研究会で試みて、文献解読の精度と速度を向上させうることを確認した。本研究課題は文献解読の実践までも研究計画にいれているので、この実証研究も計画の一部である。これらの成果については、3月に京都大学で開催されたインド学とデジタル人文学を連結する国際シンポジウムで発表した。シンポジウムでは有益なフィードバックが多数得られたので、今後の研究につなげるつもりである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定されていたプログラムの開発はでき、またウダヤナの文献解読において実用性を実証することもできたので、おおむね順調といえるだろう。初年度に難航した作業補助学生の雇用も実現でき、データ準備等で多いに活躍してもらえた。計画の観点からは、むしろ計画していなかったよいできごとがあった。ひとつはデータ科学者との研究交流を深めることができたこと、もうひとつは分担者として参加している別の研究課題(インド古写本のOCR読み取りに関するもの)の研究成果をこちらに応用したところ、電子テキスト作成の効率化で大きな進展があったことである。したがって計画以上の進展を報告したいところではあるが、これまでの成果について論文をひとつも公表できていないので、おおむね順調というに留めた。成果発表は年度末の国際シンポジウムでデモも含めたプレゼンテーションを行うことができたが、論文化の予定はない。国内外の学術誌になるべく早期に投稿することにする。そのために、予算を若干残し、次年度の発表・論文投稿のための資金とする。
|
Strategy for Future Research Activity |
既に当初予定の研究期間は終了しており、延長した1年では研究成果を論文にまとめ、国内外の学術誌に投稿することに目標を絞る。それと合わせて、研究期間内に終了しなかった、OCR取得データのクリーニング作業を進めたい。データの利用方法を文字列検索から統計分析へと切り替えることで、データクリーニングの必要性は下がり、人件費をかけて緻密に直していくのでは結果がコストに見合わない。データの訂正にはきっとLLMが有効であるだろうと期待されるので、次年度中にファインチューニングしたLLMによるデータ訂正がどの程度有効にはたらくか、検証してみるつもりである。この点については別途分担参加している研究プロジェクトで有意義な成果が出ており、そこで得られた知見をこちらのプロジェクトにも利用することで、大幅な進展が期待できる。本研究を通して人的交流も増え、最新技術については詳しい人に聞いてみるということも可能になった。
|
Report
(2 results)
Research Products
(1 results)