研究実績の概要 |
本研究課題では近代書籍の自動テキスト化を目的とした学習データの収集を行った。本課題以前に収集した学習データでは、実際の認識システムの学習には全く足らなかったため、まず基本学習データセットを手作業で集め、それを基本辞書とした近代書籍文字用OCRをWeb上で使えるようにし,近代書籍画像を指定すると認識結果を表示し,誤認識と思われる文字に関してはハイライトさせて利用者に正解を教えてもらい,それを学習データとして追加して利用するたびに認識率が良くなっていく近代書籍自動テキスト化支援環境システムを開発した.手作業で集めた基本学習データセットは、近代書籍36社603冊から約1,500種類の文字をそれぞれ出版時期・出版者の異なる6セットを作成し、それを用いて学習させた近代書籍用OCRをベースにした近代書籍自動テキスト化支援環境システムを使って文字種を約2,600種類まで拡張させた。この詳細については論文(近代書籍を対象とした多フォント漢字認識、情報処理学会論文誌数理モデル化と応用、vol.9(2)、pp33-40, 2016)で報告している。また当初の計画にはなかったことであるが、近代書籍文字用OCRは特徴抽出法としてPDCを、識別器としてSVMを使っているが、他の特徴抽出法(荷重方向ヒストグラム、拡張セル)も使ってどの特徴抽出手法がどの文字の誤認識を引き起こすかという分析を行い国際会議で報告した。さらに特定の出版者のフォントが手に入らない場合に備えて、人工知能を用いた特定フォント自動生成の予備実験を行い国内研究会で口頭発表を行った。
|