2014 Fiscal Year Research-status Report
字形情報・言語情報の統合的利用による歴史的文献資料テキスト化システムの高度化
Project/Area Number |
26730161
|
Research Institution | The University of Tokyo |
Principal Investigator |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | デジタルアーカイブ / デジタルテキスト化 / OCR / 自然言語処理 / デジタルヒューマニティーズ |
Outline of Annual Research Achievements |
本研究は自然言語処理技術を利用したOCR誤り訂正を行うことにより高精度なデジタルテキスト化システムを構築することを目的としている。システムの主な対象は近代の活字文書(近代書籍)であり、現代と異なるフォントや異体字が使用されていることに起因する文字置換誤りの訂正を主に行ない、デジタルテキスト化の精度を向上させる。 平成26年度は 1)局所的な言語情報 2)大域的な言語情報 3)字形情報 の三種類の情報をそれぞれ単独で利用したOCR誤り訂正システムの研究開発を行なった。局所的な言語情報を用いた誤り訂正として、既存研究を基にした各文字出現に対するその周辺の言語情報と言語モデルを利用した訂正システムの開発を行った。また、大域的な言語情報を用いた誤り訂正として、対象とする文書全体の統計情報を利用し、文字誤りの判定および訂正文字候補の生成ならびに訂正文字の推定を行うシステムの開発を行った。具体的には訂正対象となるテキストは画像認識の結果であるため、特定の文字は出現位置にかかわらず別の同じ文字として誤認識される傾向がある、という仮定のもと、誤りと判定した文字出現周辺の言語情報を各文字で集計し、その情報から正しい文字を推定する手法の研究開発を行なった。さらに字形情報を利用した誤り訂正として、OCRシステムから出力される認識文字候補およびその認識の確信度を利用し文字誤りの判定などを行うシステムを開発した。以上の成果は、国内学会言語処理学会第21回年次大会にて発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
OCR誤り訂正システムの研究開発については、当初の計画通り局所的情報・大域的情報・字形情報それぞれを単独で使用した訂正システムを開発済みである。しかしながら、研究代表者の異動もあり、当初の計画では平成26年度に行う予定であった学習データ・正解データとして利用する言語リソースの作成については作業が遅れている。
|
Strategy for Future Research Activity |
OCR誤り訂正システムの研究開発については当初の予定通り、平成26年度に開発した誤り訂正手法に対する個々の手法のさらなる高精度化、および複数手法を統合的に利用したより高精度な誤り訂正手法を研究開発する。また並行して当初の計画では平成26年度に行う予定であった学習データ・正解データとして利用する言語リソースの作成を進める。対象データとしては、効率化のため近代デジタルライブラリーなどの公開されている既存のデジタル画像化書籍も含めて検討を行う。
|
Causes of Carryover |
当初の予定では平成26年度には学習データ・正解データの構築を、アルバイト学生などによる書籍のスキャン・OCR処理・OCR認識結果の人手による修正というフローで行う予定であった。しかしながら研究代表者の異動もあり、データ構築作業に遅れが生じたためその分の次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
次年度使用額分については当初の使用目的の通り、データの構築を行うアルバイト学生等の人件費として使用する。それ以外についても当初の計画通り、プログラミングを行うアルバイト学生等の人件費、研究成果発表のための論文投稿費、学会参加費、学会旅費などに使用する予定である。
|
Research Products
(1 results)