• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

近代書籍自動テキスト化支援環境の構築

Research Project

Project/Area Number 26280119
Research InstitutionNara Women's University

Principal Investigator

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords文字認識 / 近代書籍テキスト化 / 進化計算 / Webプログラミング / データベース / デジタルアーカイブ
Outline of Annual Research Achievements

本課題での研究目的は,近代書籍の自動テキスト化環境を構築し,国立国会図書館関西館の提供する近代デジタルライブラリの一部を実際に自動テキスト化することである.これまでに申請者らは近代デジタルライブラリの自動テキスト化に関する基礎研究を行なってきたが,これに最低限必要な要素技術は既に確立し,実際に自動テキスト化する際の具体的問題点の把握と問題解決も行っている.そこで近代書籍用活版文字認識システムの学習データをある程度整備し,それ以外の学習データをインタラクティブに生成する支援ツールを開発する.この支援ツールを使うことで近代デジタルライブラリのみならず,新聞雑誌を含む広く近代書籍の自動テキスト化が可能となり,様々な事業を創出し幅広い分野で我国の知的資産価値を上げることが可能となる.平成26年度の研究計画は下記の通りであった。
1)基本学習データセットの整備:本サブテーマでは基本学習データセットとして3,000種類の文字(第一第二水準を問わない)を5セット以上整備する.整備すべき対象書籍数は近代デジタルライブラリの中から約1万冊として,手作業で行う。
2)拡張学習データ収集支援ツールの開発:本研究サブテーマでは,拡張学習データ収集のためのツールを開発する.このツールではユーザが間違いを探すのではなく,認識システムにとって未知データの新規書籍を認識させ,認識の度合いが低い文字をハイライト表示してユーザに問い合わせる.不正解の場合は正しい文字種を教えてから学習データセットに追加する.ある程度学習データが増えれば,認識システムの追加学習を行い,全体の認識率を上げる.
3)近代書籍用活版文字認識システム学習部の並列化:認識システム学習部のスカラー並列化を行う。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

基本学習データセットの整備の計画は3,000種類の漢字を5セット手作業で揃えることであったが、5人月を使って行ったところ2,000種類で5セット揃えられたのは半分にも満たなかった。この時点での傾向から回帰分析を行ったところ、3,000種類5セットというのは現実的な手作業の範囲を遥かに超えていることが判明した。そこで拡張学習データ収集支援ツールの開発を急ぐことにした。このツールは当初想定していなかったWebプログラミングで行った結果、複数のユーザが同時に作業できる環境が整った。平成26年12月の段階でテストランを行ったところバグが見つかったため、その修正を年明けにかけて行い、ほぼ完成した。また、そのスカラ並列化はタスク並列のみ行った。

Strategy for Future Research Activity

平成27年度は拡張学習データを整備するのが第一の課題であるが、JIS第二水準までの各文字10セットというのは極めて困難ということが分かってきた。そのため規格のあるフォントから近代書籍を出版している任意の出版社のフォントを自動生成する手法を検討する。また漢字認識の特徴抽出で用いるPDC特徴は近代書籍の活字の特徴を捉えきれていないと思われるので、PDC特徴の改良も行いたい。いずれにしても本研究の成果として国会図書館近代デジタルライブラリの実際のテキスト化を行い、帝国議会議事録のテキスト化につなげる。裏抜け除去やレイアウト解析は優先順位は下げる。

Causes of Carryover

基本学習データを手作業で整備するために人件費を多く計上していたが、整備途中で予想以上に困難であることが判明したため、基本学習データセットを縮小して、拡張学習データ収集支援ツールの開発を完成させた。ツールの完成が年度末近かったことから、ツールを使っての拡張学習データ整備に着手できなかった。そのため基本学習データ整備の人件費の一部が未使用で残った。

Expenditure Plan for Carryover Budget

前年度未使用分の人件費は拡張学習データ整備の人件費として再度計上する。拡張学習データ収集も予想より困難であるため、結果としてそのための人件費が余分に使えるようになり、計画が順調に進むものと思われる。

Research Products

(3 results)

All 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results) (of which Invited: 1 results)

  • [Journal Article] 活字データの分類を用いた進化計算による近代書籍からのルビ除去2015

    • Author(s)
      粟津 妙華, 高田 雅美, 城 和貴
    • Journal Title

      情報処理学会論文誌数理モデル化と応用

      Volume: 8-1 Pages: 72-79

    • Peer Reviewed
  • [Presentation] An Effective and Interactive Training Data Collection Method for Early-Modern Japanese Printed Character Recognition2015

    • Author(s)
      Kazumi Kosaka, Taeka Awazu , Yu Ishikawa , Masami Takata, and Kazuki Joe
    • Organizer
      PDPTA2015 MPS workshop
    • Place of Presentation
      米国ラスベガス
    • Year and Date
      2015-07-27 – 2015-07-30
  • [Presentation] 近代デジタルライブラリーの自動テキスト化-OCRと共同校正の課題解決に向けた技術-2015

    • Author(s)
      城 和貴
    • Organizer
      国立国会図書館主催講演会
    • Place of Presentation
      国立国会図書館関西館
    • Year and Date
      2015-03-05
    • Invited

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi