Project/Area Number |
23K28385
|
Project/Area Number (Other) |
23H03696 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | International Institute for Digital Humanities |
Principal Investigator |
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
|
Co-Investigator(Kenkyū-buntansha) |
間淵 洋子 和洋女子大学, 人文学部, 准教授 (10415614)
岡田 一祐 慶應義塾大学, 文学部(三田), 准教授 (80761220)
中村 覚 東京大学, 史料編纂所, 助教 (80802743)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
王 一凡 一般財団法人人文情報学研究所, 人文情報学研究部門, 研究員 (20998215)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000)
Fiscal Year 2025: ¥6,760,000 (Direct Cost: ¥5,200,000、Indirect Cost: ¥1,560,000)
Fiscal Year 2024: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2023: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
|
Keywords | TEIガイドライン / テキスト構造化 / 日本語テキスト資料 / 東アジア古典籍 / 日本古典籍 / 日本語歴史コーパス / 古辞書 / 日本史データ / 仏典テキストデータ |
Outline of Research at the Start |
本研究は、人文学向けテキストデータ構築の国際デファクト標準であるTEI (Text Encoding Initiative) ガイドラインの検討を通じ、日本の歴史的テキストを機械可読性の高い形で横断的に扱えるように構造化する具体的な手法を確立するとともに、日本文化に関わる研究データを国際的な学術流通の遡上にのせ、日本の人文学のためのデジタル時代の国際的な研究基盤を確立することを目指す。
|
Outline of Annual Research Achievements |
2023年度の本研究の実績としては、TEI協会東アジア/日本分科会の定例研究会をオンラインで共催し、ほぼ毎週、49回にわたり、東アジア/日本に関するテキスト構造化に関する議論と実践を行った。 定例研究会においては、TEI (Text Encoding Initiative)ガイドライン及びODDの日本語訳、方言談話資料の協働マークアップが主なテーマとなるとともに、オンライン開催のため国内外各地でテキスト構造化に取り組む研究者・実践者が集い、テキスト構造化に関する活発な議論が展開された。 この活動をベースとしつつ、日本の歴史的テキストの構造化に関する取り組みが進められた。以下に、テキストのタイプ毎にみてみよう。 和歌に関しては、近代短歌、歌合及び虫歌合に関する取り組みに協力する形でテキスト構造化のルールが検討され、それを踏まえた統合ビューワ及び個別対応のビューワの双方の開発が進められた。この成果はTEI国際会議、じんもんこんシンポジウム等で発表された。 近代文学の草稿に関しては、テキスト構造化に関する議論と個別対応の専用ビューワの開発が行われ、これもドイツ・パーダーボルンで開催されたTEI国際会議で発表された。 古辞書に関しては、歴史的辞書の構造化ガイドラインであるTEI-lex0のプロジェクトを率いるToma Tasovacを招聘してワークショップを開催し、議論を深めた。 また、歴史史料全般に関して、RDFとテキスト構造化との関係について検討するとともにこれもTEI国際会議で発表した。 仏典に関するテキスト構造化も議論し、情報処理学会人文科学とコンピュータ研究会や日本印度学仏教学会で共同発表を行った。 以上の構造化実践を踏まえ、本年1月に汎用のTEI古典籍ビューワをWeb公開し、誰もが気軽にテキスト構造化に取り組める環境を提供した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
そのために日本を含む東アジアの古典籍に対応しようとしてきた。なかでも、テキスト構造化のターゲットとしていた分野として、和歌に関する議論をかなり深めることができた。これ以外にも、近代文学草稿、仏教文献、古辞書、歴史史料などのタイプのテキストに関して議論を進めることができ、そのうちのいくつかのタイプについてはそれぞれに定義した構造に基づくビューワを開発し、そこでの表示に至るまで対応し、国内外各地の研究集会で発表を行うことができた。さらに、これに対応する東アジア古典籍向けの汎用ビューワの開発と公開を実現できた。これにより、テキスト構造化の意義をわかりやすく示すことができるようになった。そして、これに対するフィードバックも収集し発表することができたため、今後のさらなる展開につながることになった。 さらに、これを発展させる形でAI-OCRと構造化テキストとの自動対照の仕組みを開発した。これは不完全なAIを信頼できるデジタル学術基盤に組込んでいくための手法として非常に有効なものであり、これは国内外各地の研究集会で発表しただけでなく、2023年4月にはウィーン大学での関連国際シンポジウムにて招待講演を行い、それぞれに様々な反響を集めた。
|
Strategy for Future Research Activity |
今後の研究の推進方策としては、対応するテキストのタイプの拡充、既存のタイプのテキストに関するさらなる探究、それらに基づくビューワの機能追加を進めていく。 テキストのタイプに関しては、2023年度に議論を行った古辞書に関する構造に本年度は特に力を入れる。ビューワに関しても、古辞書向けのものはこれまでとはまったく異なるものになり、すでに古辞書ビューワは国内外の研究プロジェクトによって開発されているため、そうしたものを参照しつつ互換性のある形で開発を進めていく。 一方、資料画像との対応に関してIIIF対応画像との連携を行う。これにもテキスト構造に関する議論とビューワ開発における検討が必要になるため、その両面から研究開発を進めていく。 最終年度には国際シンポジウムを開催して本研究の成果を広く公表する予定である。
|