• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

近代デジタルライブラリの自動テキスト化

Research Project

Project/Area Number 21500237
Research InstitutionNara Women's University

Principal Investigator

城 和貴  奈良女子大学, 大学院・人間文化研究科, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 大学院・人間文化研究科, 助教 (20397574)
Keywords近代書籍デジタル化 / 文字認識 / アーカイブ / 自動テキスト化 / サポートベクタマシン / 画像処理
Research Abstract

国立国会図書館近代デジタルライブラリから、出版時期出版元が異なり、青空文庫にて人手によるテキスト化がなされている10タイトルを選出し、10タイトル全てに含まれている漢字256種類を抽出した。10タイトルの画像データと青空文庫のテキストデータから当該256種類の漢字を自動的に切り出すツールを実装し、256種類の漢字*10出版社のデータセットを作成した。このデータセットに対して昨年度実装を行った手法(方向寄与度特徴ならびにサポートベクタマシン)を使って実験を行ったところ、テスト・データに対して92%以上の認識率を達成した。以上の研究成果を情報処理学会第82回数理モデル化と問題解決研究会にて口頭発表を行った。また昨年度より検討を行っていた近代デジタルライブラリ・ポータルの設計が完成したため、情報処理学会第81回数理モデル化と問題解決研究会いて口頭発表を行った。来年度には近代デジタルライブラリから1万タイトルを選出し、大規模な認識実験を行う予定であるので、その数値計算用に1TFLOPSのGPU計算サーバを整備した。

  • Research Products

    (2 results)

All 2011 2010

All Journal Article (2 results)

  • [Journal Article] SVMに基づく多フォント漢字認識手法の評価2011

    • Author(s)
      榎本友理枝, 高田雅美, 木目沢司, 城和貴
    • Journal Title

      情報処理学会研究報告数理モデル化と問題解決

      Volume: Vol.2011-MPS-82 No.14 Pages: 1-6

  • [Journal Article] 近代デジタルライブラリ-テキスト化支援のためのポータルサイトの設計2010

    • Author(s)
      黒田佳世, 榎本友里枝, 高田雅美, 城和貴
    • Journal Title

      情報処理学会研究報告数理モデル化と問題解決

      Volume: Vol.2010-MPS-81 No.35 Pages: 1-6

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi