Project/Area Number |
23K20105
|
Project/Area Number (Other) |
20H01304 (2020-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2020-2023) |
Section | 一般 |
Review Section |
Basic Section 03010:Historical studies in general-related
|
Research Institution | Chukyo University |
Principal Investigator |
山田 雅之 中京大学, 工学部, 教授 (90262948)
|
Co-Investigator(Kenkyū-buntansha) |
目加田 慶人 中京大学, 工学部, 教授 (00282377)
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
鈴木 哲造 中京大学, 法学部, 講師 (10771123)
川嶋 稔夫 公立はこだて未来大学, システム情報科学部, 特命教授 (20152952)
長谷川 純一 中京大学, 人工知能高等研究所, 特任研究員 (30126891)
檜山 幸夫 中京大学, 社会科学研究所, 特任研究員 (40148242)
村井 源 公立はこだて未来大学, システム情報科学部, 教授 (70452018)
東山 京子 中京大学, 社会科学研究所, 研究員 (80570077)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2021: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2020: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
|
Keywords | 史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム / 手書き文書認識システム |
Outline of Research at the Start |
我々は、先の科研費研究課題(基盤研究(C))において、台湾総督府文書を題材に、約37万の手書き文字の基礎データを有するデータセットを開発した。さらに、高水準の手書き文書認識技術(精度85%)を開発した。これら成果を基盤として、本研究課題では認識精度95%を目指し、100万文字分まで基礎データを拡大し、字形・文脈情報に基づく文書認識技術を開発して、近代公文書自動解読システムを構築する。 また、台湾4機関の協力を受け史学研究の観点から実用性を検証する。本研究の創造性は、近代公文書の大規模基礎データと最先端文書認識技術を開発するもので、その成果により、近代公文書の利用拡大が期待できる。
|
Outline of Annual Research Achievements |
自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。 本研究では、2022年度までに、4,548画像、約114万文字分のデータセットを開発した。2023年度は、さらに、約8万文字分のデータを追加するとともに、データ全体の点検・修正を行い、5,002画像、3,964字種、1,221,505文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2022年度までに、精度93%の個別文字認識技術を開発するとともに、サンプル数の少ない字種の認識精度改善手法を検討した。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。2023年度はさらに、学習データの追加と独自のデータ拡張手法を導入し、行画像認識精度を94.9%まで向上させた。2022年度に試作した対話型解読支援システムについて、2023年度の成果を適用してシステムを更新した。台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行い、その有用性を確認した。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析、および、任意の近代公文書画像から自動で字形データを収集する手法の検討を行った。 これらの成果について学術論文1編、国内学会発表4件により公表・報告を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データセットについては目標の100万文字を超える122万文字分の基礎データを開発できた。認識精度についても目標の95%にほぼ到達している。一方で、開発したシステムの実利用性については台湾総督府文書のみでなく他の近代公文書を用いた評価が必要である。
|
Strategy for Future Research Activity |
【研究組織会議・合同研究会】研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受ける。また、開発したシステムを用いて、台湾総督府文書以外の近代公文書に対する認識実験を行い、システムの実利用性の向上および幅広い活用に関する課題の抽出を行う。 【データセット開発】開発したデータセットには同じ文字の旧字体・新字体・異体字が混在する。文字認識精度評価の際は、これまで、これらは異なる字種として扱ってきたが、旧字体・新字体・異体字を区別しない場合の文字認識精度を評価するため、旧字体・新字体・異体字の対応関係を整理する。様々な近代公文書の解読においてシステムが利用可能かどうかを評価するため台湾総督府文書以外の近代公文書を題材にしてシステム精度評価用データセットを作成する。 【文書認識技術の改良・システム構築】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術、文脈情報を用いた文書認識手法の精度改善方法を検討する。また、旧字体・新字体・異体字を区別しない場合の文字認識精度評価、台湾総督府文書以外の近代公文書に対する行認識精度評価を行う。さらに、画像中の全ての行を一括認識する手法を検討し、画像単位で自動解読する機能をシステムに導入する。 【研究成果の公表】研究成果を国内外の関連学会で発表する。
|