2019 Fiscal Year Research-status Report
Creating Spatiotemporal Rubbing-database for Discovering Potential knowledge
Project/Area Number |
18K18337
|
Research Institution | Ritsumeikan University |
Principal Investigator |
孟 林 立命館大学, 理工学部, 准教授 (60615938)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 時空間データベース / 拓本 / 深層学習 |
Outline of Annual Research Achievements |
1)学習データの再構築:最初、既存の拓本文字データベースを用いた深層学習での拓本文字の認識実験では、思った通りの認識精度が達成できなかった。分析により、拓本文字データベースには複数のミスが存在していることが分かった。つまり、データベースにミスが生じ、深層学習の学習データが汚染されることにより、認識精度が低下した。従って、我々は既存のデータベースのミスを無くし、学習データセットの再構築をした。それにより、認識精度をある程度向上させた。 2)深層学習認識の限界と対策:認識結果分析において、深層学習において拓本文字認識精度の限界が見えつつあることが分かった。その理由としては、拓本の欠損と文字の劣化である。そのため、我々は深層学習とビックデータ解析技術の二つの手法を組み合わせて、文字を予測することにより、更なる拓本文字認識の精度の向上を実現してきた。その結果として数パーセントの認識向上を達成できた。 3)時空間データベースの雛形と認識システムのオンラインAPIの雛形:今年度では、時空間データベースの雛形を作成し、これから機能の拡張を行う予定である。また、既に、漢字認識システムのオンラインAPIを作成した。主に、拓本の一部である甲骨文字と漢字を含めたくずし字である。システムは、研究室のサーバに組み込んでオンライン使用が可能となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層学習を用いた拓本文字の認識を目指しているが、データセットが非常に重要である。既存のデータセットを用いた深層学習による拓本文字の認識評価では、認識率がなかなか向上できず、非常に鮮明な文字が認識できないという問題が生じてしまった。詳細に分析すると、従来のデータセットのミス問題、データセットの質の問題非常に大きいことが分かった。 データセットの質の問題は、データセットの非常に不鮮明な画像の存在とデータセットのアンバランスという問題が含まれている。そのため、我々は、学習データセットを再構築し、非常に時間と労力を費やしてしまった。しかし、より正確かつ有効な拓本認識用のデータセットの構築ができた。今後の研究につながると考えられる。 これまでに、拓本の一部である甲骨文字と漢字を含めたくずし字のオンライン認識APIを作成した。しかし、APIにおいては、複数の深層学習モデルとCPUサーバの使用により、認識速度が大きな問題となることが分かった。今後の認識において、認識速度が一つの課題となることが分かった。
|
Strategy for Future Research Activity |
今後の推進方策は以下となる。 1)複数の拓本を用いて、認識システムの有効性を更に確認し、問題点を解決する。そして、モデルをオンラインにアップロードし、認識システムの実用化を図る。 2)時空間データベースの構築に力を入れて、その完成を目指す。そして、オンラインのAPIを実現し、実用化を図る。 3)現在拓本の一部である甲骨文字と漢字を含めたくずし字のオンライン認識APIは、複数の深層学習モデルを有するが、CPUサーバの使用により、一文字の認識にあたって、十秒から数十秒をかかり、認識速度が大きな問題となることが分かった。今後は認識精度の向上とともに、認識速度の向上にも視野に入れる。
|
Causes of Carryover |
2020年度にデータセットの作成・実験結果の分析のための人件費および認識速度問題を緩和するため高性能サーバを購入する費用が必要となり、そのために2019年度の支出を調整し、削減したために次年度使用が生じた。
|
Research Products
(13 results)