研究課題/領域番号 |
26280119
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 文字認識 / 近代書籍テキスト化 / 進化計算 / Webプログラミング / データベース / デジタルアーカイブ |
研究実績の概要 |
本課題での研究目的は,近代書籍の自動テキスト化環境を構築し,国立国会図書館関西館の提供する近代デジタルライブラリの一部を実際に自動テキスト化することである.これまでに申請者らは近代デジタルライブラリの自動テキスト化に関する基礎研究を行なってきたが,これに最低限必要な要素技術は既に確立し,実際に自動テキスト化する際の具体的問題点の把握と問題解決も行っている.そこで近代書籍用活版文字認識システムの学習データをある程度整備し,それ以外の学習データをインタラクティブに生成する支援ツールを開発する.この支援ツールを使うことで近代デジタルライブラリのみならず,新聞雑誌を含む広く近代書籍の自動テキスト化が可能となり,様々な事業を創出し幅広い分野で我国の知的資産価値を上げることが可能となる.平成26年度の研究計画は下記の通りであった。 1)基本学習データセットの整備:本サブテーマでは基本学習データセットとして3,000種類の文字(第一第二水準を問わない)を5セット以上整備する.整備すべき対象書籍数は近代デジタルライブラリの中から約1万冊として,手作業で行う。 2)拡張学習データ収集支援ツールの開発:本研究サブテーマでは,拡張学習データ収集のためのツールを開発する.このツールではユーザが間違いを探すのではなく,認識システムにとって未知データの新規書籍を認識させ,認識の度合いが低い文字をハイライト表示してユーザに問い合わせる.不正解の場合は正しい文字種を教えてから学習データセットに追加する.ある程度学習データが増えれば,認識システムの追加学習を行い,全体の認識率を上げる. 3)近代書籍用活版文字認識システム学習部の並列化:認識システム学習部のスカラー並列化を行う。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
基本学習データセットの整備の計画は3,000種類の漢字を5セット手作業で揃えることであったが、5人月を使って行ったところ2,000種類で5セット揃えられたのは半分にも満たなかった。この時点での傾向から回帰分析を行ったところ、3,000種類5セットというのは現実的な手作業の範囲を遥かに超えていることが判明した。そこで拡張学習データ収集支援ツールの開発を急ぐことにした。このツールは当初想定していなかったWebプログラミングで行った結果、複数のユーザが同時に作業できる環境が整った。平成26年12月の段階でテストランを行ったところバグが見つかったため、その修正を年明けにかけて行い、ほぼ完成した。また、そのスカラ並列化はタスク並列のみ行った。
|
今後の研究の推進方策 |
平成27年度は拡張学習データを整備するのが第一の課題であるが、JIS第二水準までの各文字10セットというのは極めて困難ということが分かってきた。そのため規格のあるフォントから近代書籍を出版している任意の出版社のフォントを自動生成する手法を検討する。また漢字認識の特徴抽出で用いるPDC特徴は近代書籍の活字の特徴を捉えきれていないと思われるので、PDC特徴の改良も行いたい。いずれにしても本研究の成果として国会図書館近代デジタルライブラリの実際のテキスト化を行い、帝国議会議事録のテキスト化につなげる。裏抜け除去やレイアウト解析は優先順位は下げる。
|
次年度使用額が生じた理由 |
基本学習データを手作業で整備するために人件費を多く計上していたが、整備途中で予想以上に困難であることが判明したため、基本学習データセットを縮小して、拡張学習データ収集支援ツールの開発を完成させた。ツールの完成が年度末近かったことから、ツールを使っての拡張学習データ整備に着手できなかった。そのため基本学習データ整備の人件費の一部が未使用で残った。
|
次年度使用額の使用計画 |
前年度未使用分の人件費は拡張学習データ整備の人件費として再度計上する。拡張学習データ収集も予想より困難であるため、結果としてそのための人件費が余分に使えるようになり、計画が順調に進むものと思われる。
|