2018 Fiscal Year Research-status Report
日本近代公文書の自動解読システム開発のための基盤構築の研究
Project/Area Number |
17K03049
|
Research Institution | Chukyo University |
Principal Investigator |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
Co-Investigator(Kenkyū-buntansha) |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 工学部, 教授 (30126891)
檜山 幸夫 中京大学, 法学部, 教授 (40148242)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 史料研究 / 近代公文書 / データセット開発 / 手書き文書認識システム |
Outline of Annual Research Achievements |
本研究は、近代の手書き文字による公文書を自動解読するシステムの実現を目指し、そのための基盤構築を目的とする。平成30年度の研究実績は下記のとおりであり、その成果は国際会議発表4件、国内学会発表2件により公表した。 1.台湾総督府文書からサンプリングした335ページを翻刻し、62,049個の手書き文字を字形データベースに追加した。また、平成29年度に作成した1,002ページ分の翻刻データ、字形データおよび原画像を基に、行単位の画像データと行単位の翻刻データを作成した。これにより、ページ単位のみでなく、行単位の自動解読実験を実施できる。 2.近代公文書は、多数の筆記者による手書き文書であるため、字形や文字サイズが多様であり、個々の文字の領域を見つけることは容易ではない。平成30年度は近代公文書の原画像から個々の文字の外接矩形(バウンディングボックス)を自動検出する新たな手法を開発し、適合率97%、再現率98%の精度で検出できることを実験により確認した。 3.自動文字認識の精度を改善する深層学習手法を検討した。深層学習の学習用データとして、本研究で作成した字形データを用いる。近代公文書に出現する文字は、字種ごとに頻度が異なるため、本研究で作成した字形データにおいても、字種ごとのデータ数が不均衡である。そこで、字種ごとのデータ数が均衡となるようにデータを増強し、それを学習することにより、文字認識精度が向上し、90%に達することを実験により確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究開始時の計画では、平成29年度から平成30年度の期間において、翻刻データ1,325ページ分、字形データ55万文字分を作成することを予定した。これに対し、平成30年度末時点では、翻刻データ1,337ページ分、字形データ263,545文字分を作成した。字形データが当初予定より少ないのは、サンプリングしたページの文字数が少なかったことや、翻刻データおよび字形データの検証作業にかかるコストが想定より大きかったことが原因である。近代公文書解読用辞書については、翻刻データから自動で語句を抽出する仕組みが完成できた。従って、継続して翻刻作業を行うことにより、登録語句数を増やすことが可能である。また、基盤技術開発については、文字検出、文字切り出し、文字認識の各要素技術について、それぞれ開発、実験、改良のサイクルを実施できており、自動解読システムに必要な精度を達成できると予想している。
|
Strategy for Future Research Activity |
1.平成30年度までの実施結果に基づき、翻刻データ1ページ分に対し、採取できる字形データは200字と想定し、平成31年度は、300~500ページ分の翻刻データ、6~10万文字分の字形データを作成する。また、新たに作成した翻刻データからも用語や定型表現に関する語句を採取し、近代公文書解読用辞書のデータを拡充する。 2.平成30 年度まで検討した文字検出、文字切り出し、文字認識の要素技術を用いて、自動解読システムを試作し、自動解読の精度を計測する。 3.古文書専門家は、文書に読みにくい文字が現れても、文脈情報を利用して解読することができる。平成31年度は、このような古文書専門家の読み方を再現し、解読精度を向上させる方法を検討する。これには、近代公文書解読用辞書に収めた語句データの利用を想定する。 4.研究成果について,外部の史学専門家による第三者評価を実施する。また、最終目標である近代公文書の自動解読システムの実現に向けた計画をたてる。平成31年度末までの研究成果を国内研究会および国際会議で報告する。
|
Causes of Carryover |
翻刻作業、字形データ作成のための人件費の支出が予定より少なかったため差額が生じた。 これらの差額分は、今後、同作業の人件費、研究組織会議、および、成果発表費で使用する。
|
Research Products
(8 results)
-
-
-
-
-
-
[Presentation] 近代公文書の手書き字形データセットの開発と個別文字領域検出手法の検討2018
Author(s)
伊藤里華, 高橋真治, 渡辺佳, 山田雅之, 目加田慶人, 長谷川純一, 中貴俊, 宮崎慎也, 鈴木哲造, 東山京子, 檜山幸夫
Organizer
第16回情報学ワークショップ
-
-