研究課題/領域番号 |
20H01304
|
配分区分 | 補助金 |
研究機関 | 中京大学 |
研究代表者 |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
研究分担者 |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
鈴木 哲造 中京大学, 社会科学研究所, 研究員 (10771123)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 教授 (20152952)
長谷川 純一 中京大学, 工学部, 教授 (30126891)
檜山 幸夫 中京大学, 社会科学研究所, 特任研究員 (40148242)
村井 源 公立はこだて未来大学, システム情報科学部, 教授 (70452018)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム |
研究実績の概要 |
自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。 本研究課題は2017~2019年度を期間とする科研費研究課題(基盤C)の継続的研究であり、本研究課題初年度(2020年度)までに、台湾総督府文書を題材として、約50万文字分の手書き文字の基礎データを含むデータセットを開発した。さらに、2021年度は約30万文字分のデータを追加し、3,228ページ、約80万文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2021年度までに精度95%の文字切り出し技術と精度89%の個別文字認識技術の開発を行ったが、2021年度はこれらの精度高める手法を検討した。さらに、文脈情報を利用する行画像認識技術の開発を進め、現時点では89%の解読精度を達成している。 本研究で培われる知見と開発する技術は、近代公文書の自動解読のみでなく、他の様々な文書データの自動認識に応用することによってその完成度が高まると考えられる。そこで2021年度は、これまでに開発した技術を、石碑をカメラで撮影して得られる石碑画像からの文字領域検出問題に応用する研究も実施し、この成果を国際会議で発表した。 本研究課題では、今後、100万文字分までデータセットを拡充するとともに、これまで開発した技術を基盤として、実利用可能な近代公文書自動解読システムを構築する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
新型コロナウィルス感染症の影響を受け、予定していた研究組織会議を実施できなかった。そのため、各研究分担者の成果の情報共有が不十分となり、今後行う各種要素技術の統合による自動解読システム構築に影響が出る可能性がある。
|
今後の研究の推進方策 |
【研究組織会議・合同研究会】各年度、研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受けるとともに、今後の自動解読システム開発に向け、必要な機能や自動解読精度について議論する。 【データセット開発】100万文字分の基礎データを有するデータセットを開発するため、翻刻作業、データ化作業を継続する。また、重要語句を収集し、計量文献学的アプローチによる文書分析を行う。 【文書認識技術の改良・システム設計】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術、文脈情報を用いた文書認識手法の精度改善方法を検討する。さらに、それらを統合的に用いた自動解読システムを設計・構築する。 【研究成果の公表】各年度、研究成果を国内外の関連学会で発表する。
|