2009 Fiscal Year Annual Research Report
Project/Area Number |
21500237
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 Nara Women's University, 大学院・人間文化研究科, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 大学院・人間文化研究科, 助教 (20397574)
|
Keywords | 近代書籍デジタル化 / 文字認識 / アーカイブ / 自動テキスト化 / サポートベクタマシン / 画像処理 |
Research Abstract |
国立国会図書館近代デジタルライブラリから出版時期出版元の異なる10タイトルを選出し、50種類の活字を人手で切り取り初期データを構築した。構築されたデータセットをもとに学習用データベースを構築した。同時に方向寄与度特徴ならびにサポートベクタマシンの実装を行い、構築された学習データベースで学習を行い、本提案手法が有効であることを示した。以上の研究成果を国際会議で口頭発表を行い、同国際会議論文集に論文を掲載した。これら予備評価実験の後、活字切り出し手法の検討を行い、実装を行った。学習用データベースを充実し、本番の学習で使えるようにデータを増やすために、8TBのRaid5を整備した。さらに、本認識システムで対応できない誤認識文字への対応として、近代デジタルライブラリ・ポータルの設計に着手した。本ポータルでは、元画像とテキスト化された画面を表示させて、閲覧者が誤認識を修正できるものであり、その結果がさらに認識システムの学習を改善させるものである。
|