2019 Fiscal Year Annual Research Report
Research on Building Foundations for Developing a System for Automatic Decipherment of Modern Japanese Official Documents
Project/Area Number |
17K03049
|
Research Institution | Chukyo University |
Principal Investigator |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
Co-Investigator(Kenkyū-buntansha) |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 工学部, 教授 (30126891)
檜山 幸夫 中京大学, 社会科学研究所, 特任研究員 (40148242)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 史料研究 / 近代公文書 / データセット開発 / 手書き文書認識システム |
Outline of Annual Research Achievements |
本研究は、近代の手書き文字による公文書を自動解読するシステムの実現を目指し、そのための基盤構築を目的とする。令和元年度および補助事業期間全体の研究実績は下記のとおりであり、その成果は学術論文1篇, 国際会議発表5件、国内学会発表9件により公表した。 1.令和元年度は台湾総督府文書からサンプリングした369ページを翻刻し、それに含まれる手書き文字を字形データベースに追加した。補助事業期間全体では、計1,706ページ分の翻刻データおよび363,522個の手書き文字の字形データを有するデータセットを作成した。また、これら翻刻データ、字形データおよび原画像を基に、行単位の画像データと行単位の翻刻データを作成できることを確認した。これによりページ単位のみでなく、行単位の自動解読実験を実施できる。 2.近代公文書は、多数の筆記者による手書き文書であるため、字形や文字サイズが多様であり、個々の文字の領域を見つけることは容易ではない。本研究では、近代公文書の原画像から個々の文字の外接矩形(バウンディングボックス)を自動検出する新たな手法を開発し、令和元年度はその技術の改良を行った。その結果、適合率97%、再現率98%、精度95%で個々の手書き文字を検出可能であることを実験により確認した。 3.自動文字認識の精度を改善する深層学習手法を検討した。深層学習の学習用データとして、本研究で作成した字形データを用いる。近代公文書に出現する文字は、字種ごとに頻度が異なるため、本研究で作成した字形データにおいても、字種ごとのデータ数が不均衡である。そこで本研究では、字種ごとのデータ数が均衡となるようにデータを増強する手法を開発した。令和元年度は学習用データ・テスト用データを増やした大規模実験を行い、文字認識精度が精度89%に達すること、および、第5候補までに正解がある割合は97%であることを確認した。
|
Research Products
(4 results)