研究課題/領域番号 |
20H01304
|
配分区分 | 補助金 |
研究機関 | 中京大学 |
研究代表者 |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
研究分担者 |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
鈴木 哲造 中京大学, 法学部, 講師 (10771123)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 人工知能高等研究所, 特任研究員 (30126891)
檜山 幸夫 中京大学, 社会科学研究所, 特任研究員 (40148242)
村井 源 公立はこだて未来大学, システム情報科学部, 教授 (70452018)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム |
研究実績の概要 |
自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。 本研究では、2021年度末までに、台湾総督府文書を題材として、約81万文字分の手書き文字の基礎データを含むデータセットを開発した。2022年度はさらに、約33万文字分のデータを追加し、4,548画像、約114万文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2020年度までに精度95%の文字切り出し技術と精度89%の個別文字認識技術の開発を行ったが、2021~2022年度はこれらの精度改善手法を検討し、個別文字認識は93%の認識精度を達成するとともに、サンプル数の少ない字種の認識精度改善手法を検討。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。これら要素技術により対話型解読支援システムを試作し、台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行った。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析も行った。 これらの成果については学術論文1編、国内学会発表2件により公表・報告を行った。 本研究課題では、今後、125万文字分までデータセットを拡充するとともに、これまで開発した技術を基盤として、実利用可能な近代公文書自動解読システムを構築する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
データセットについては目標の100万文字を超える114万文字分の基礎データを開発できた。しかしならが、認識精度については、目標の95%に到達していない。精度が十分に上がらない理由の一つは、手書き文字のサンプル数が字種ごとに偏りがあることが原因であると考えらる。このため、基礎データ数を125万文字まで拡大する予定である。
|
今後の研究の推進方策 |
【研究組織会議・合同研究会】各年度、研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受けるとともに、今後の自動解読システム開発に向け、必要な機能や自動解読精度について議論する。 【データセット開発】125万文字分の基礎データを有するデータセットを開発するため、翻刻作業、データ化作業を継続する。また、重要語句を収集し、計量文献学的アプローチによる文書分析を行う。 【文書認識技術の改良・システム設計】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術、文脈情報を用いた文書認識手法の精度改善方法を検討する。さらに、それらを統合的に用いた自動解読システムを設計・構築する。 【研究成果の公表】各年度、研究成果を国内外の関連学会で発表する。
|