2016 Fiscal Year Research-status Report
字形情報・言語情報の統合的利用による歴史的文献資料テキスト化システムの高度化
Project/Area Number |
26730161
|
Research Institution | The University of Tokyo |
Principal Investigator |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | デジタルテキスト化 / OCR / デジタルアーカイブ / 誤り訂正 / 自然言語処理 / デジタルヒューマニティーズ |
Outline of Annual Research Achievements |
本研究は、OCRシステムが出力した文字認識結果に対し、後処理として自然言語処理技術を利用したOCR誤り訂正を行うことにより、書籍等の画像に対する高度なデジタルテキスト化システムを構築することを目的としている。システムの主な対象は近代の活字文書(近代書籍)であり、既存のOCRシステムの画像認識手法のみでは対応が困難である、現代の活字とは異なるフォントや異体字等に起因する文字置換誤りの訂正を行うことでデジタルテキスト化の精度を向上させる。 平成28年度は昨年度までに構築した 1)局所的な言語情報 2)大域的な言語情報 3)字形情報 の三種類の情報をそれぞれ用いたOCR誤り訂正システムを利用し、誤り箇所の検出、訂正候補文字の生成、訂正文字の選択の各ステップにおいて各種情報を組み合わせてOCR誤り訂正を行うシステムの研究開発を行った。組み合わせの手法は以下のとおりである。誤り箇所の検出には各種情報による検出結果をスコア化し統合して判定を行った。訂正候補文字の生成は各システムから候補文字をスコア付きで出力し、それらを統合し一つの訂正候補文字集合を生成した。訂正文字の選択は現状では局所的情報のみを用いて選択を行っている。このように複数の手法を組み合わせることでより精度の高いOCR誤り訂正システムを実現している。上記の組み合わせ手法の開発に加え、それぞれ単独で用いた場合の精度向上も昨年度に引き続き研究開発を行った。 また、これらのシステム開発に使用する言語リソース・テスト時の正解データの作成を行った。国立国会図書館によりデジタル化された近代の書籍データおよび過去のプロジェクトにおいて作成した書籍画像データを対象とし、市販のOCRシステムによる文字認識を行った結果に対し人手で訂正を行うという形でOCR誤り箇所の検出および正解となるテキストデータの作成を行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
OCR誤り訂正システムの研究開発については複数種の手法を統合的に利用した誤り訂正手法についてシステムの開発を行っているが、精度の観点からはさらなる研究開発が必要である。また言語リソースの作成については国立国会図書館の書籍のデジタル化データ等に対しOCRシステムによる処理の後、人手による修正を行うことでデータ構築を進めている。当初の予定では今年度行う予定であったOCRシステムへのフィードバックによるOCRシステム自身の精度向上についてはまだ手がつけられていない。
|
Strategy for Future Research Activity |
OCR誤り訂正システムの研究開発については引き続き複数の誤り訂正手法を統合的に利用した誤り訂正手法の精度向上に関する研究を行う。また、誤り訂正の結果のOCRシステムへのフィードバックによるOCRシステム自身の精度向上についても実験を行う。 言語リソースの作成については引き続き国立国会図書館の図書画像データおよび過去のプロジェクトで使用した書籍画像データを用い、人手によるデータの作成を行う。また他にも、人文学オープンデータ共同利用センター(CODH)により近代書籍のOCRデータの構築が進められているため、それらのデータも利用することで効率的に実験を行う。
|
Causes of Carryover |
昨年度の時点でデータ構築が計画よりも遅れたため次年度使用額が生じており、その分は今年度にデータ構築を行う予定であったが、その予定よりも作業の遅れが生じたため次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
次年度使用額分に関しては遅れているデータの構築、およびシステムの開発・実験を行うアルバイトなどの人件費として使用する。また、研究成果発表のための論文投稿費、学会参加費・旅費などにも使用する予定である。
|
Research Products
(1 results)