2016 年度実績報告書

近代書籍自動テキスト化支援環境の構築

研究課題

研究課題/領域番号	26280119
研究機関	奈良女子大学
研究代表者	城和貴奈良女子大学, 生活環境科学系, 教授 (90283928)
研究分担者	高田雅美奈良女子大学, 生活環境科学系, 講師 (20397574)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	文字認識 / 特徴抽出 / Webアプリケーション / 遺伝的プログラミング
研究実績の概要	本研究課題では近代書籍の自動テキスト化を目的とした学習データの収集を行った。本課題以前に収集した学習データでは、実際の認識システムの学習には全く足らなかったため、まず基本学習データセットを手作業で集め、それを基本辞書とした近代書籍文字用OCRをWeb上で使えるようにし，近代書籍画像を指定すると認識結果を表示し，誤認識と思われる文字に関してはハイライトさせて利用者に正解を教えてもらい，それを学習データとして追加して利用するたびに認識率が良くなっていく近代書籍自動テキスト化支援環境システムを開発した．手作業で集めた基本学習データセットは、近代書籍36社603冊から約1,500種類の文字をそれぞれ出版時期・出版者の異なる6セットを作成し、それを用いて学習させた近代書籍用OCRをベースにした近代書籍自動テキスト化支援環境システムを使って文字種を約2,600種類まで拡張させた。この詳細については論文（近代書籍を対象とした多フォント漢字認識、情報処理学会論文誌数理モデル化と応用、vol.9(2)、pp33-40, 2016）で報告している。また当初の計画にはなかったことであるが、近代書籍文字用OCRは特徴抽出法としてPDCを、識別器としてSVMを使っているが、他の特徴抽出法（荷重方向ヒストグラム、拡張セル）も使ってどの特徴抽出手法がどの文字の誤認識を引き起こすかという分析を行い国際会議で報告した。さらに特定の出版者のフォントが手に入らない場合に備えて、人工知能を用いた特定フォント自動生成の予備実験を行い国内研究会で口頭発表を行った。
現在までの達成度 (段落)	28年度が最終年度であるため、記入しない。
今後の研究の推進方策	28年度が最終年度であるため、記入しない。
次年度使用額が生じた理由	28年度が最終年度であるため、記入しない。
次年度使用額の使用計画	28年度が最終年度であるため、記入しない。

研究成果
(3件)

すべて 2016

すべて雑誌論文 (2件) (うち査読あり 2件、謝辞記載あり 2件、オープンアクセス 1件) 学会発表 (1件) (うち招待講演 1件)

[雑誌論文] 近代書籍を対象とした多フォント漢字認識2016
- 著者名/発表者名
  粟津妙華, 上坂和美，高田雅美, 城和貴
- 雑誌名
  
  情報処理学会論文誌数理モデル化と応用
  
  巻: 9(2) ページ: 33-40
- 査読あり / 謝辞記載あり
[雑誌論文] Comparison of Feature Extraction Methods for Early-Modern Japanese Printed Character Recognition2016
- 著者名/発表者名
  Kazumi Kosaka, Kaori Fujimoto, Yu Ishikawa, Masami Takata, Kazuki Joe
- 雑誌名
  
  Proceedings of PDPTA2016
  
  巻: Final Edition ページ: 408-414
- 査読あり / オープンアクセス / 謝辞記載あり
[学会発表] デジタルコレクション　自動テキスト化への道2016
- 著者名/発表者名
  城和貴
- 学会等名
  国立国会図書館　デジタルライブラリーカフェ
- 発表場所
  国立国会図書館
- 年月日
  2016-11-25
- 招待講演

2016 年度 実績報告書

近代書籍自動テキスト化支援環境の構築

研究代表者

城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)

研究成果

[雑誌論文] 近代書籍を対象とした多フォント漢字認識2016

著者名/発表者名

雑誌名

[雑誌論文] Comparison of Feature Extraction Methods for Early-Modern Japanese Printed Character Recognition2016

著者名/発表者名

雑誌名

[学会発表] デジタルコレクション 自動テキスト化への道2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実績報告書

城和貴奈良女子大学, 生活環境科学系, 教授 (90283928)

[学会発表] デジタルコレクション　自動テキスト化への道2016