研究課題/領域番号 |
17K03049
|
研究機関 | 中京大学 |
研究代表者 |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
研究分担者 |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 工学部, 教授 (30126891)
檜山 幸夫 中京大学, 法学部, 教授 (40148242)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 史料研究 / 近代公文書 / データセット開発 / 手書き文書認識システム |
研究実績の概要 |
本研究は、近代の手書き文字による公文書を、コンピュータが自動的に解読するシステムの実現を目指し、そのための基盤技術の形成を目的とする。平成29年度の研究実績は下記のとおりであり、その成果は研究論文1篇、国内学会発表4件により公表した。 1.台湾総督府文書からサンプリングした1,002ページを翻刻し、2,686字種、201,498個の手書き文字の字形データを作成した。また、作成した字形データから特定の字種を検索・閲覧できる字形データベースを開発し、筆記者の違いによる字形の変化の統計的分析を実施した。 2.本研究準備期間に開発した字形データ作成支援ツールの改良を行った。このツールは文書画像中の文字の自動検出・自動切り出し機能により、字形データ作成作業を支援する。平成29年度において、文字検出、文字切り出しの新たな手法を開発し、精度を80%から97%に改善できること実験により確認した。 3.近代公文書に現れる用語や定型表現に関する語句を収集し、近代公文書解読用辞書を作成した。この辞書には、333ページ分の翻刻データから採取した4,680 種類の語句と、研究分担者が開発した「台湾総督府文書の目録データベース」から採取した18,078種類の語句を収録した。 4.字形データを学習用データとし、深層学習法に基づく文字認識実験を実施し75%の認識精度が得られることを確認した。また、ワードスポッティング手法を用いて、文字切り出しと文字認識を一括して行う方法についても技術開発を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
翻刻データについては、当初予定していた750ページ分を上回り1,002ページ分を作成できた。一方、字形データについては、当初予定の30万文字分に対し、作成したデータ数は約20万であった。これは、字形データの検証作業にかかるコストが想定より大きかったことが原因である。近代公文書解読用辞書については、翻刻データから自動で語句を抽出する仕組みが完成できた。従って、継続して翻刻作業を行うことにより、登録語句数を増やすことが可能である。また、基盤技術開発については、文字検出技術、文字切り出し技術、文字認識技術の検討・試作・実験を実施できた。これらを発展させることにより、自動解読システムに必要な精度を達成できると予想している。
|
今後の研究の推進方策 |
1.平成29年度の実施結果に基づき、翻刻データ1ページ分に対し、採取できる字形データは200字と想定し、平成30年度は、500ページ分の翻刻データ、10万文字分の字形データの作成を行う。また、新たに作成した翻刻データからも用語や定型表現に関する語句を採取し、近代公文書解読用辞書のデータを拡充する。 2.本研究で作成している字形データは、字種ごとの字形データ数に偏りがある。一方、文字認識のための学習用の字形サンプルは、どの字種についても十分な量が必要である。そのため、作成した字形データを活用して、人工的に疑似字形を生成する方法を検討する。 3.平成29年度に検討した文字検出技術、文字切り出し技術、文字認識技術を用いて、文字認識システムを試作し、精度を計測する。また、上記で述べた疑似字形を利用した場合とそうでない場合の精度を比較する。 4.古文書専門家は、解読対象の文書に読みにくい文字が現れても、前後の文字情報や文脈情報を利用して解読することができる。平成30年度以降は、このような古文書専門家の読み方をシステムにより再現し、文字認識精度を向上させる方法を検討する。これには、近代公文書解読用辞書に収めた語句のデータを利用する。 5.外部の史学専門家による本研究成果の第三者評価を実施する。また、最終目標である近代公文書の自動解読システムの実現に向けた計画をたてる。平成31年度末までの研究成果を国内研究会および国際会議で報告する。
|
次年度使用額が生じた理由 |
翻刻作業、字形データ作成のための人件費の支出が予定より少なかったため差額が生じた。 これらの差額分は、今後、同作業の人件費、研究組織会議、および、成果発表費で使用する。
|