研究課題/領域番号 |
22K18453
|
研究機関 | 名古屋大学 |
研究代表者 |
岩崎 陽一 名古屋大学, 人文学研究科, 准教授 (40616546)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
キーワード | 文献学 / 異読 / 電子化 / 自動化 |
研究実績の概要 |
本研究は(1)異読整理の支援(2)関連文献の発見の技術的支援を目的としている。(1)に関する研究は前年度に集中的に行ったが、本年度はそれを継続し、既成プログラムの試用・評価を試みたところ、KDiff3が特に利便性が高いことが分かり、自作プログラムと併用するかたちで文献研究に利用した。本年度は(2)の研究を重点的に行ったが、本年度からデータ科学者との研究連携を深め、またテキストマイニング技術を習得したことにより、研究の方針を大きく変更した。すなわち、当初は関連文献の発見にApache Solr等での文字列検索を行うことを想定していたが、統計分析技術を用いることにした。これにより、OCRで得た電子テキストの読み取りエラー訂正も必要なくなり、研究が大幅に加速した。取得した電子テキストをN-gramで分割し、jaccard係数やコサイン類似度等の指標、また文字列検索により類似度を判定し、関連文献を検索するプログラムを作成したところ、実用性の高い結果が得られた。実際に、このプログラムを利用した読解を、ウダヤナの文献を解読する研究会で試みて、文献解読の精度と速度を向上させうることを確認した。本研究課題は文献解読の実践までも研究計画にいれているので、この実証研究も計画の一部である。これらの成果については、3月に京都大学で開催されたインド学とデジタル人文学を連結する国際シンポジウムで発表した。シンポジウムでは有益なフィードバックが多数得られたので、今後の研究につなげるつもりである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定されていたプログラムの開発はでき、またウダヤナの文献解読において実用性を実証することもできたので、おおむね順調といえるだろう。初年度に難航した作業補助学生の雇用も実現でき、データ準備等で多いに活躍してもらえた。計画の観点からは、むしろ計画していなかったよいできごとがあった。ひとつはデータ科学者との研究交流を深めることができたこと、もうひとつは分担者として参加している別の研究課題(インド古写本のOCR読み取りに関するもの)の研究成果をこちらに応用したところ、電子テキスト作成の効率化で大きな進展があったことである。したがって計画以上の進展を報告したいところではあるが、これまでの成果について論文をひとつも公表できていないので、おおむね順調というに留めた。成果発表は年度末の国際シンポジウムでデモも含めたプレゼンテーションを行うことができたが、論文化の予定はない。国内外の学術誌になるべく早期に投稿することにする。そのために、予算を若干残し、次年度の発表・論文投稿のための資金とする。
|
今後の研究の推進方策 |
既に当初予定の研究期間は終了しており、延長した1年では研究成果を論文にまとめ、国内外の学術誌に投稿することに目標を絞る。それと合わせて、研究期間内に終了しなかった、OCR取得データのクリーニング作業を進めたい。データの利用方法を文字列検索から統計分析へと切り替えることで、データクリーニングの必要性は下がり、人件費をかけて緻密に直していくのでは結果がコストに見合わない。データの訂正にはきっとLLMが有効であるだろうと期待されるので、次年度中にファインチューニングしたLLMによるデータ訂正がどの程度有効にはたらくか、検証してみるつもりである。この点については別途分担参加している研究プロジェクトで有意義な成果が出ており、そこで得られた知見をこちらのプロジェクトにも利用することで、大幅な進展が期待できる。本研究を通して人的交流も増え、最新技術については詳しい人に聞いてみるということも可能になった。
|
次年度使用額が生じた理由 |
データ利用方法の変更により、研究に使用するデータをクリーニングする必要性が低下したので、その分、人件費の次年度使用が生じた。この次年度使用については、翌年度の成果発表・論文投稿の費用として使用するつもりである。
|