データベース化すべき資料の優先順位を決定することが本年度の目標のひとつであったが、研究を進めていく過程で、データの元となる統計表の様式が年度ごとにかなり変化していることが判明した。したがって、たとえば費目ごとの救貧支出額や受救貧民の構成などの経年変化を分析するにあたっても、いくつかの統計表を同時に参照する必要があるため、優先順位の最終的な決定は見送らざるを得なかった。ただし、時間的な制約から地域をイングランドとウエールズに限定し、アイルランドに関する資料についてはさしあたりデータベース化の対象から外すこととした。他方、データベース化の速度の向上という今一つの目標については、当初OCRソフトの認識精度そのものを上げることでの達成を目指したが、その方策の限界がほどなく明らかになったため以下のような手段によることとした。すなわち、カウンティ名やユニオン名、項目などをあらかじめ手入力したフォーマットを作成し、そこにOCRソフトで読み込んだ数値データを落とし込む、というものである。候補を数字のみとした読み込みが可能となるこの手法によって、データベース化の速度は2倍以上に高まったが、イギリスの歴史的な統計表で使用されている独特の書体の数字はOCRソフトにとってやはり難物であり、学習機能を活用しながらも手作業による修正は欠かせなかった。現時点でデータベース化を完了できたのは1841年度版の『第7年次報告書』までである。当初の計画からの大幅な遅れを取り戻すためにも、来年度に向けてより効率的な方策を検討していきたい。
|