2015 Fiscal Year Annual Research Report
Project/Area Number |
26280119
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 文字認識 / 近代書籍テキスト化 / 進化計算 / Webサービス / データベース / デジタルアーカイブ |
Outline of Annual Research Achievements |
本課題での研究目的は、近代書籍の自動テキスト化環境を構築し、国立国会図書館関西館の提供する近代デジタルライブラリの一部を実際に自動テキスト化することである。これあでに申請者らは近代デジタルライブラリの自動テキスト化に関する基礎研究を行ってきたが、これに最低必要な要素技術は既に確立し、実際に自動テキスト化する際の具体的問題点の把握と問題解決も行っている。そこで近代書籍用活版文字認識システムの学習データをある程度整備し、それ以外の学習データをインタラクティブに生成する支援ツールを開発する。この支援ツールを使うことで近代デジタルライブラリのみならず、新聞雑誌を含む広く近代書籍の自動テキスト化が可能となり、様々な事業を創出し幅広い分野で我が国の知的資産価値を上げることが可能となる。平成27年度の研究計画は以下の通りであった。 1)基本学習データセットの整備:本サブテーマでは基本学習データセットとして三千種類の文字(JIS第一第二水準を問わない)を5セット以上整備する。 2)拡張学習データセット収集支援ツールの整備:本サブテーマでは一昨年度に完成した拡張学習データセット収集支援ツールを使って学習データを実際に増やす。 3)任意の出版社の文字データをある程度学習することで、学習データ以外の当該出版社の文字データを自動作成する。 4)これまでPDC特徴しか使っていなかったが、他の特徴抽出手法も検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
一昨年基本学習データセットが整備しきれなかったが、昨年度で約2800種類の漢字5セットを整備することができた。ただ、この整備に時間がかかりすぎて拡張学習データセット収集支援ツールを有効利用するまでに至っていない。任意の出版社のデータを自動生成するサブテーマに関しては、進化計算を使うことを提案し、予備実験に成功した。特徴抽出手法の検討では、PDC以外に拡張セル、加重ヒストグラムの2種類を使えるようにして評価実験を行った。
|
Strategy for Future Research Activity |
平成28年度は拡張学習データセット収集支援ツールを使って拡張学習データを整備すると同時に特定のフォントセットを自動作成する方法についても同時に進める。また現在PDC特徴しか使っていないが、拡張セル、加重ヒストグラムの三種類を同時に利用できるようにシステムを改良する。
|
Causes of Carryover |
学習データを保管していたRaidの一部が故障し、その修理代としてある程度置いておいた予算が、結局修理不可能とのことで未使用のまま残った。
|
Expenditure Plan for Carryover Budget |
RaidからLTOに乗り換えるのに使用する。
|