研究課題/領域番号 |
20H01304
|
配分区分 | 補助金 |
研究機関 | 中京大学 |
研究代表者 |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
研究分担者 |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
鈴木 哲造 中京大学, 社会科学研究所, 研究員 (10771123)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 工学部, 教授 (30126891)
檜山 幸夫 中京大学, 社会科学研究所, 特任研究員 (40148242)
村井 源 公立はこだて未来大学, システム情報科学部, 教授 (70452018)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム |
研究実績の概要 |
本年度は文字データセットの拡充を行った。具体的には、新たに台湾総督府文書5簿冊から画像686枚分の文書をサンプリングし、そこから155,010文字分のデータを作成した。これで、昨年度分と併せ、全体で12簿冊、2,393画像、518,529文字を有するデータセットとなった。 近代公文書の手書き文字は文字間隔や文字サイズが不均一であり、隣接する文字が接触する場合や、重なっている場合も多い。このような手書き文字を個別に検出するため、個々の文字の上下左右の領域および中心を検出する手法の開発を進めた。検出のための深層学習ネットワークにはFCN(Fully Convolutional Networks)を用いた。これまでに、適合率97%、再現率98%、精度95%で個々の手書き文字を検出可能であることが確認されている。 近代公文書に出現する文字は、字種ごとに出現頻度が異なるため、本研究で作成したデータセットにおいても、字種ごとのデータ数が不均一である。そこで,字種ごとのデータ数が均一となるようにデータ増強する手法の開発を進めた。文字認識のための深層学習ネットワークにはGoogle Netを用いた。これまでの実験で、文字認識精度が89%に達すること、および、第5候補までに正解がある割合は97%であることが確認されている。 本研究で培われる知見と開発する技術は、近代公文書の自動解読のみでなく、他の様々な文書データの自動認識に応用することによってその完成度が高まると考えられる。そこで本年度は、これまでに開発した技術を、石碑をカメラで撮影して得られる石碑画像からの文字領域検出問題に応用し、疑似石碑画像を用いた深層学習手法を開発した。この成果により第18回情報学ワークショップ(2020年11月)で奨励賞を受けた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
新型コロナ感染症による影響により、当初予定していた研究組織会議を見送った。
|
今後の研究の推進方策 |
【研究組織会議・合同研究会】各年度、研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受けるとともに、今後の自動解読システム開発に向け、必要な機能や自動解読精度について議論する。 【データセット開発】100万文字分の基礎データを有するデータセット開発を継続する。 また、重要語句を収集し、計量文献学的アプローチによる文書分析を行う。 【文書認識技術の改良・システム設計】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術を改善するとともに、文脈情報を用いた文書認識手法を検討し、それらを統合的に用いた自動解読システムを設計する。 【研究成果の公表】各年度、研究成果を国内外の関連学会で発表する。
|