研究実績の概要 |
本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することであった。初年度である本年度は、①共用レポジトリの基本設計と、②これを踏まえた試験版の実装、また③軽量マークアップ言語Kojiの改修にあたった。以下、各成果について詳細を宣べる。 まず①については、本研究で構築を予定する歴史資料のテキスト共用レポジトリについて、技術的要件の整理と必要技術の選定を行った上で、レポジトリが格納するテキストの階層構造やグルーピングなど基本データ構造の設計を実施した。また、共用レポジトリは主にAPIを介して外部プログラムとデータの交換を行うが、これをスムーズにおこなうためにOpenAPIを利用したAPIのスキーマ定義をおこなった。 次に②については、①の設計方針に基づきRuby on Railsを用いて共用レポジトリの試作版を構築した。この試作版に、テストデータとして「みんなで翻刻」上で翻刻された災害資料600万字分のデータをインポートした。この試作版は資料のテキストデータの閲覧・編集を可能にするREST APIを提供し、JSONやXMLなど機械可読形式で出力する。ElasticSearchを利用した全文検索や、ユーザー認証による閲覧制限にも対応する。 ③については、共用レポジトリの主要データフォーマットとなる予定の軽量マークアップ言語Kojiの改修を実施し、docx, LaTeX, XML, HTML, txtなど各種フォーマットへの変換機能を整備した。これによって、Kojiで書かれた文書のデータとしての可搬性が大きく向上した。
|