2014 年度実績報告書

近代書籍自動テキスト化支援環境の構築

研究課題

研究課題/領域番号	26280119
研究機関	奈良女子大学
研究代表者	城和貴奈良女子大学, 生活環境科学系, 教授 (90283928)
研究分担者	高田雅美奈良女子大学, 生活環境科学系, 講師 (20397574)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	文字認識 / 近代書籍テキスト化 / 進化計算 / Webプログラミング / データベース / デジタルアーカイブ
研究実績の概要	本課題での研究目的は，近代書籍の自動テキスト化環境を構築し，国立国会図書館関西館の提供する近代デジタルライブラリの一部を実際に自動テキスト化することである．これまでに申請者らは近代デジタルライブラリの自動テキスト化に関する基礎研究を行なってきたが，これに最低限必要な要素技術は既に確立し，実際に自動テキスト化する際の具体的問題点の把握と問題解決も行っている．そこで近代書籍用活版文字認識システムの学習データをある程度整備し，それ以外の学習データをインタラクティブに生成する支援ツールを開発する．この支援ツールを使うことで近代デジタルライブラリのみならず，新聞雑誌を含む広く近代書籍の自動テキスト化が可能となり，様々な事業を創出し幅広い分野で我国の知的資産価値を上げることが可能となる．平成26年度の研究計画は下記の通りであった。１）基本学習データセットの整備：本サブテーマでは基本学習データセットとして3,000種類の文字（第一第二水準を問わない）を5セット以上整備する．整備すべき対象書籍数は近代デジタルライブラリの中から約１万冊として，手作業で行う。２）拡張学習データ収集支援ツールの開発：本研究サブテーマでは，拡張学習データ収集のためのツールを開発する．このツールではユーザが間違いを探すのではなく，認識システムにとって未知データの新規書籍を認識させ，認識の度合いが低い文字をハイライト表示してユーザに問い合わせる．不正解の場合は正しい文字種を教えてから学習データセットに追加する．ある程度学習データが増えれば，認識システムの追加学習を行い，全体の認識率を上げる．３）近代書籍用活版文字認識システム学習部の並列化：認識システム学習部のスカラー並列化を行う。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由基本学習データセットの整備の計画は3,000種類の漢字を5セット手作業で揃えることであったが、5人月を使って行ったところ2,000種類で5セット揃えられたのは半分にも満たなかった。この時点での傾向から回帰分析を行ったところ、3,000種類5セットというのは現実的な手作業の範囲を遥かに超えていることが判明した。そこで拡張学習データ収集支援ツールの開発を急ぐことにした。このツールは当初想定していなかったWebプログラミングで行った結果、複数のユーザが同時に作業できる環境が整った。平成26年12月の段階でテストランを行ったところバグが見つかったため、その修正を年明けにかけて行い、ほぼ完成した。また、そのスカラ並列化はタスク並列のみ行った。
今後の研究の推進方策	平成２７年度は拡張学習データを整備するのが第一の課題であるが、JIS第二水準までの各文字10セットというのは極めて困難ということが分かってきた。そのため規格のあるフォントから近代書籍を出版している任意の出版社のフォントを自動生成する手法を検討する。また漢字認識の特徴抽出で用いるPDC特徴は近代書籍の活字の特徴を捉えきれていないと思われるので、PDC特徴の改良も行いたい。いずれにしても本研究の成果として国会図書館近代デジタルライブラリの実際のテキスト化を行い、帝国議会議事録のテキスト化につなげる。裏抜け除去やレイアウト解析は優先順位は下げる。
次年度使用額が生じた理由	基本学習データを手作業で整備するために人件費を多く計上していたが、整備途中で予想以上に困難であることが判明したため、基本学習データセットを縮小して、拡張学習データ収集支援ツールの開発を完成させた。ツールの完成が年度末近かったことから、ツールを使っての拡張学習データ整備に着手できなかった。そのため基本学習データ整備の人件費の一部が未使用で残った。
次年度使用額の使用計画	前年度未使用分の人件費は拡張学習データ整備の人件費として再度計上する。拡張学習データ収集も予想より困難であるため、結果としてそのための人件費が余分に使えるようになり、計画が順調に進むものと思われる。

研究成果
(3件)

すべて 2015

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件) (うち招待講演 1件)

[雑誌論文] 活字データの分類を用いた進化計算による近代書籍からのルビ除去2015
- 著者名/発表者名
  粟津妙華, 高田雅美, 城和貴
- 雑誌名
  
  情報処理学会論文誌数理モデル化と応用
  
  巻: 8-1 ページ: 72-79
- 査読あり
[学会発表] An Effective and Interactive Training Data Collection Method for Early-Modern Japanese Printed Character Recognition2015
- 著者名/発表者名
  Kazumi Kosaka, Taeka Awazu , Yu Ishikawa , Masami Takata, and Kazuki Joe
- 学会等名
  PDPTA2015 MPS workshop
- 発表場所
  米国ラスベガス
- 年月日
  2015-07-27 – 2015-07-30
[学会発表] 近代デジタルライブラリーの自動テキスト化－ＯＣＲと共同校正の課題解決に向けた技術－2015
- 著者名/発表者名
  城和貴
- 学会等名
  国立国会図書館主催講演会
- 発表場所
  国立国会図書館関西館
- 年月日
  2015-03-05
- 招待講演

2014 年度 実績報告書

近代書籍自動テキスト化支援環境の構築

研究代表者

城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 活字データの分類を用いた進化計算による近代書籍からのルビ除去2015

著者名/発表者名

雑誌名

[学会発表] An Effective and Interactive Training Data Collection Method for Early-Modern Japanese Printed Character Recognition2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 近代デジタルライブラリーの自動テキスト化－ＯＣＲと共同校正の課題解決に向けた技術－2015

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実績報告書

城和貴奈良女子大学, 生活環境科学系, 教授 (90283928)