Project/Area Number |
22K18453
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 1:Philosophy, art, and related fields
|
Research Institution | Nagoya University |
Principal Investigator |
岩崎 陽一 名古屋大学, 人文学研究科, 准教授 (40616546)
|
Project Period (FY) |
2022-06-30 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 文献学 / 異読検出 / 電子化 / 発見支援 / 自動化 |
Outline of Research at the Start |
人工知能により人間の仕事が奪われる、という未来予測は悲観的な響きを伴って語られることが多いが、古典文献研究者としてはその未来に希望をもっている。日頃の研究において膨大な時間を割かねばならない基礎作業の多くを機会に任せ、自分自身は機械にできない高度な知的作業に注力できるようになるからである。その来るべき未来に向けて、本研究は、サンスクリット語文献の解読において必要となる作業(1)刊本の異読整理、(2)並行句・類似表現発見について、自動化または作業支援の環境を開発することを目的とする。
|
Outline of Annual Research Achievements |
初年度の研究計画では、研究対象文献の電子テキストの作成と、異読検出プログラムの開発を予定していた。電子テキストの作成のためにRAを雇用する予定であったが、適任者がいないため初年度は雇用を見送り、その分の予算は次年度に繰り越した。しかし別の仕方で研究を進められないか検討し、各方面で評価が高まっているAI-OCRの利用を試みた。いくつか好評価のものを試用し、Google Cloud Vision APIは事前学習不要でもっとも実用性が高かったので、これを利用することにした。刊本3種のPDFからVision APIで文字列アノテーションを取得するプログラムを作成した。得られたテキストには多くの瑕疵がみられ、その修正はいまだ手作業で進めているが、だいぶパターン化されてきたので、ゆくゆくは半自動化できるだろう。さらに、次の課題である異読の検出については、pythonのdifflibを利用して差異を求めるプログラムを作成した。当初はいわゆる校訂テキストのapparatusのフォーマットで差分を出力することを考えていたが、その自動化はかなり困難であると分かり、いまのことろ単純に文字列比較を行って差異をハイライトするのみの仕様である。電子化と異読検出のいずれの作業も目標地点まで到達することはできたが、精度や利便性に不満が多いため、2年目では改善を施しつつ計画をさらに前進させる。なお、開発作業にはChatGPTを大いに利用した。人工知能の利用は本研究の計画外であるが、この一年で状況が大きく変化したため、研究の基幹部分にもそれが利用できないか積極的に検討したい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定されていた作業、すなわち電子テキストの作成と異読検出プログラムの開発については達成できたので、おおむね順調といってよいだろう。プログラムの出力結果については、当初期待していたものより利便性が劣るが、現時点で大きな問題とみなすほどではない。RAの雇用ができなかったことは予定外であったが、代わりにAI-OCRを利用することで研究スピードは維持できた。むしろ、AI-OCRの利用に関して、想定していなかったよい成果が得られたと考えている。これを利用して、Jnanasri や Ratnakirti のテキストの電子化も試みた。電子化されたテキストのクリーニングについては、いまだ作業が追い付いておらず、今後スピードアップさせたい。 初年度中には研究成果を発表する機会をもたなかったが、発表については研究計画に含めていないので、この点は進捗評価で考慮する必要はないと考えるが、来年度は研究発表を予定する。
|
Strategy for Future Research Activity |
研究を補助する業務については、RAの代わりに補助学生を雇用する目処が立ったので、2年目は補助学生の助力を得ながら作業を進めていく。具体的には、Google Vision API を積極的に利用する方向に舵を取り、Udayana、Vallabha, Jnanasri 、Ratnakirti あたりのテキストの電子化について補助学生に作業を一部委託し、進めていく。こうして得られた電子テキストをデータベース化し、検索可能にする作業が2年目の主な計画となる。これについて、当初はn-gramでのセグメンテーションを予定していたが、ChatGPT の形態素解析の精度が想定外によいので、新技術の利用も視野に入れて検討してきたい。以上のように、研究の推進方策としては、新技術の展開がめざましく、本研究にも利用できるものがさまざまに登場することが予想されるので、それらの動向に注視しつつ、当初予定以上の結果を出せるように柔軟に計画を進めていきたい。
|