研究課題
国立国会図書館近代デジタルライブラリから出版時期出版元の異なる10タイトルを選出し、50種類の活字を人手で切り取り初期データを構築した。構築されたデータセットをもとに学習用データベースを構築した。同時に方向寄与度特徴ならびにサポートベクタマシンの実装を行い、構築された学習データベースで学習を行い、本提案手法が有効であることを示した。以上の研究成果を国際会議で口頭発表を行い、同国際会議論文集に論文を掲載した。これら予備評価実験の後、活字切り出し手法の検討を行い、実装を行った。学習用データベースを充実し、本番の学習で使えるようにデータを増やすために、8TBのRaid5を整備した。さらに、本認識システムで対応できない誤認識文字への対応として、近代デジタルライブラリ・ポータルの設計に着手した。本ポータルでは、元画像とテキスト化された画面を表示させて、閲覧者が誤認識を修正できるものであり、その結果がさらに認識システムの学習を改善させるものである。
すべて 2009
すべて 雑誌論文 (1件) (うち査読あり 1件)
The 2009 International Conference on Parallel and Distributed Processing Techniques and Applications 2
ページ: 728-734