2022 Fiscal Year Research-status Report
データ合成と深層学習を用いた歴史的文書の画像解析手法 ー行抽出と行の順序付けー
Project/Area Number |
22K12736
|
Research Institution | Shibaura Institute of Technology |
Principal Investigator |
鈴木 徹也 芝浦工業大学, システム理工学部, 教授 (00323824)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 文書画像解析 / 歴史的文書 / データ合成 / 深層学習 |
Outline of Annual Research Achievements |
計算機による歴史的文書(古典籍、古文書など)の翻刻支援の研究では、文書画像中の文字の位置検出と文字のパターン認識とについての研究は進んでいる。しかし検出した各文字の読み順の決定法についてはあまり進んでいない。文字の位置検出に加えて、行の抽出と抽出した行の読み順の決定(順序付)ができれば、検出した文字の読み順が決定できると考えられる。
このような背景から本研究は次の2つを目的とする。(1)古典籍を対象とした文書画像解析(行抽出、行の順序付)に利用する深層ニューラルネットワークの構成を提案し、その評価を行うこと。(2)深層ニューラルネットワークのための学習データの合成法を提案し、その評価を行うこと。
2022年度の進捗は次の通りである。まず研究課題を遂行するための計算機環境の準備(ハードウェアの調達とソフトウェアのインストール)を行った。次に若干のソフトウェア開発を行った。具体的には、研究代表者らが過去に実装した注釈付き文書画像合成システムを修正した。これによって、対象とする古典籍に類似した文書画像とそのメタデータ(行の中心線画像)とを大量に合成できるようになった。さらに、そのシステムで合成した文書画像と行の中心線画像とを用い、行抽出のためのセマンティックセグメンテーションの予備的な実験を行った。本研究課題に関連する情報を収集するために、いくつかの研究集会に参加した。残念ながら研究成果の発表には至らなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究代表者の家庭の事情により研究に費やす時間を十分に確保できなかった。その結果、計画通りに研究を進めることができなかった。
|
Strategy for Future Research Activity |
研究のための時間を確保できる見通しが立ったので、2023年度は研究計画通り古典籍の文書画像からの行抽出法を提案し評価することを目指す。
|
Causes of Carryover |
次年度使用額が生じた理由 * 研究代表者の家庭の事情により研究に費やす時間を十分に確保できず予定通りに研究計画を実施できなかった。 * 研究集会にはオンラインで参加したため、交通費・宿泊費など出張費用が不要となった。
|