• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

近代書籍自動テキスト化支援環境の構築

Research Project

Project/Area Number 26280119
Research InstitutionNara Women's University

Principal Investigator

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords文字認識 / 近代書籍テキスト化 / 進化計算 / Webサービス / データベース / デジタルアーカイブ
Outline of Annual Research Achievements

本課題での研究目的は、近代書籍の自動テキスト化環境を構築し、国立国会図書館関西館の提供する近代デジタルライブラリの一部を実際に自動テキスト化することである。これあでに申請者らは近代デジタルライブラリの自動テキスト化に関する基礎研究を行ってきたが、これに最低必要な要素技術は既に確立し、実際に自動テキスト化する際の具体的問題点の把握と問題解決も行っている。そこで近代書籍用活版文字認識システムの学習データをある程度整備し、それ以外の学習データをインタラクティブに生成する支援ツールを開発する。この支援ツールを使うことで近代デジタルライブラリのみならず、新聞雑誌を含む広く近代書籍の自動テキスト化が可能となり、様々な事業を創出し幅広い分野で我が国の知的資産価値を上げることが可能となる。平成27年度の研究計画は以下の通りであった。
1)基本学習データセットの整備:本サブテーマでは基本学習データセットとして三千種類の文字(JIS第一第二水準を問わない)を5セット以上整備する。
2)拡張学習データセット収集支援ツールの整備:本サブテーマでは一昨年度に完成した拡張学習データセット収集支援ツールを使って学習データを実際に増やす。
3)任意の出版社の文字データをある程度学習することで、学習データ以外の当該出版社の文字データを自動作成する。
4)これまでPDC特徴しか使っていなかったが、他の特徴抽出手法も検討する。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

一昨年基本学習データセットが整備しきれなかったが、昨年度で約2800種類の漢字5セットを整備することができた。ただ、この整備に時間がかかりすぎて拡張学習データセット収集支援ツールを有効利用するまでに至っていない。任意の出版社のデータを自動生成するサブテーマに関しては、進化計算を使うことを提案し、予備実験に成功した。特徴抽出手法の検討では、PDC以外に拡張セル、加重ヒストグラムの2種類を使えるようにして評価実験を行った。

Strategy for Future Research Activity

平成28年度は拡張学習データセット収集支援ツールを使って拡張学習データを整備すると同時に特定のフォントセットを自動作成する方法についても同時に進める。また現在PDC特徴しか使っていないが、拡張セル、加重ヒストグラムの三種類を同時に利用できるようにシステムを改良する。

Causes of Carryover

学習データを保管していたRaidの一部が故障し、その修理代としてある程度置いておいた予算が、結局修理不可能とのことで未使用のまま残った。

Expenditure Plan for Carryover Budget

RaidからLTOに乗り換えるのに使用する。

Research Products

(2 results)

All 2016 2015

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Comparison of Feature Extraction Methods for Early-Modern Japanese Printed Character Recognition2016

    • Author(s)
      Kazumi Kosaka, Kaori Fujimoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • Organizer
      PDPTA2016 MPS workshop
    • Place of Presentation
      米国ラスベガス
    • Year and Date
      2016-07-25 – 2016-07-28
    • Int'l Joint Research
  • [Presentation] 近代書籍用OCRのための学習用特定フォントセットの自動生成手法2015

    • Author(s)
      岩田彩, 上坂和美, 粟津妙華, 石川由羽, 高田雅美, 城和貴
    • Organizer
      情報処理学会数理モデル化と問題解決研究会
    • Place of Presentation
      北見工業大学
    • Year and Date
      2015-09-22 – 2015-09-23

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi