本年度の第一の目標は、統計表のデータベース化システムの構築であったが、イメージスキャナで画像データとしてコンピュータに取り込んだ統計表をOCRソフトを用いて文字データのテキストファイルに変換するプロセスにおいて当初の予想を遥かに越える困難があった。高速処理が可能なコンピューターに適合した既存OCRソフトの発見に手間取ったことなどもその原因に挙げられるが、最大の難関はイギリスの歴史的な統計表で使用されている数字をソフトに認識させる過程にあった。そのような困難も、エクセル形式に変換された表のカラムを一つずつ点検し訂正していきながら、OCRソフトの学習機能を最大限に活用して認識精度を上げていくことで徐々に克服されつつある。システムの構築、および構築後のシステムの微調整と試運転という本年度のさしあたりの課題は一応達成されたといいうるが、手入力による訂正作業のウエイトはいまだ小さくない。データベース化の対象としている資料の膨大さに鑑みても、認識精度を飛躍的に引き上げるための方策の検討は今後も継続されねばなるまい。他方、データベース化すべき資料の優先順位の最終的決定といういま一つの課題は、システム構築そのものに多大な労力を要したこともあって、ほぼそのまま持ち越された形となった。分析対象の絞り込み作業を今後早急に進める必要があるが、その際に、廣重が海外出張により持ち帰った『救貧法委員会年次報告書』作成に関わる資料が参考になるものと期待される。
|