2020 Fiscal Year Research-status Report
Development of a shared text repository for data-driven historical research
Project/Area Number |
20K20138
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 歴史資料 / データ駆動型研究 / テキストレポジトリ / クラウドソーシング / ユーザー参加 |
Outline of Annual Research Achievements |
本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することであった。初年度である本年度は、①共用レポジトリの基本設計と、②これを踏まえた試験版の実装、また③軽量マークアップ言語Kojiの改修にあたった。以下、各成果について詳細を宣べる。 まず①については、本研究で構築を予定する歴史資料のテキスト共用レポジトリについて、技術的要件の整理と必要技術の選定を行った上で、レポジトリが格納するテキストの階層構造やグルーピングなど基本データ構造の設計を実施した。また、共用レポジトリは主にAPIを介して外部プログラムとデータの交換を行うが、これをスムーズにおこなうためにOpenAPIを利用したAPIのスキーマ定義をおこなった。 次に②については、①の設計方針に基づきRuby on Railsを用いて共用レポジトリの試作版を構築した。この試作版に、テストデータとして「みんなで翻刻」上で翻刻された災害資料600万字分のデータをインポートした。この試作版は資料のテキストデータの閲覧・編集を可能にするREST APIを提供し、JSONやXMLなど機械可読形式で出力する。ElasticSearchを利用した全文検索や、ユーザー認証による閲覧制限にも対応する。 ③については、共用レポジトリの主要データフォーマットとなる予定の軽量マークアップ言語Kojiの改修を実施し、docx, LaTeX, XML, HTML, txtなど各種フォーマットへの変換機能を整備した。これによって、Kojiで書かれた文書のデータとしての可搬性が大きく向上した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究で開発を目指すテキスト共用レポジトリの試験開発がすでに完了しており、Kojiの他ファイルフォーマットへの変換など比較的挑戦的だった課題の実装も完了していることから、おおむね研究は順調に進展しているものと考える。 ただし、研究課題のひとつとして挙げていた「TEIガイドラインに基づく日本語資料の構造化記述の研究」については具体的な進捗がない状況であるといった課題もある。しかし、これについては別グループがTEIによる日本語資料の符号化について活動を進めており、すでにルビをTEIに導入するといった成果を挙げている。このため、TEIによる日本語資料の構造化については優先度を下げるべきと考えている。
|
Strategy for Future Research Activity |
次年度は、①マークアップ言語Kojiの処理系および編集環境の開発と、②テキスト共用レポジトリの開発に集中的に取り組む。①については、現在公開している貧弱なドキュメント(http://koji-lang.org/)を置き換え、チュートリアルを充実させる予定である。②については、今年度開発した試験版を研究者向けに公開し、フィードバックを得る。これをもとに改修を繰り返しソフトウェア品質の向上に取り組む。また、可能であれば一般向けの公開も行う。最初から「歴史資料の共用テキストレポジトリ」という大きな枠組みでシステムを公開するのではなく、スモールスタートの方法を取って特定ジャンルの資料に特化したレポジトリとして公開することを考えている。
|