2022 Fiscal Year Research-status Report
Understanding of Essential Character Structure for Machine Learning and Kuzushiji Recognition
Project/Area Number |
22K12729
|
Research Institution | Tohoku University |
Principal Investigator |
宮崎 智 東北大学, 工学研究科, 助教 (10755101)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | くずし字認識 / 文字構造の理解 / 文書解析 / 古典籍 |
Outline of Annual Research Achievements |
本年度は、文字部位に着目した古典籍中の少数サンプル文字認識手法を開発した。 一般的なくずし字認識手法が文字種毎に多量のサンプルを必要とするのに対し、現実では多くの文字種においてサンプルが不足している。具体的には最大級のくずし字データセットにおいてすら、文字種の約1/3はたった3枚以下のサンプルしか持たない。 本研究ではこうした少数サンプル文字種や無サンプル文字種の認識のため、漢字中の文字部位に着目したくずし字認識手法を開発した。例えば「字」という漢字は大まかに上部「宀」と下部「子」から構成される。この上部と下部から構成される漢字の構成方法は他の多くの漢字に共通すると同時に、文字部位「宀」「子」もまた他の多くの漢字に共通する。こうした多様な漢字に共通する文字部位要素の認識であれば、多サンプル文字種を活用した学習が可能である。そこで本研究では文字部位に着目することによって、少数サンプル文字種や無サンプル文字種のより高精度な認識を行った。 本研究では、漢字構造データベースを活用し日本語漢字文字における文字部位に着目したラベルの作成とくずし字画像への文字部位情報の付与を行った。また文字部位特徴を効果的に得るための擬似的漢字文字画像サンプルによる事前学習を開発した。この事前学習を施した特徴抽出器について、作成したくずし字サンプルを用いてファインチューニングすることで、くずし字画像から有効に文字部位特徴を得られる文字部位特徴抽出器を作成した。この文字部位特徴抽出器及び最近傍法から構成される新しいくずし字認識器を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は日本の古典籍くずし字認識における少数サンプル文字種や無サンプル文字種のより高精度な認識のために、3つの要素技術を開発した。(1)日本語漢字文字種に対する文字部位に着目したラベル作成手法。(2)文字部位特徴の効果的な抽出のための擬似的漢字文字サンプルを用いた事前学習。(3)文字部位特徴を有効に活用する無サンプル文字種の認識可能な新しいくずし字認識手法。これらの要素技術を統合した提案手法は文字種に着目した一般的な認識手法の少数サンプル文字種認識精度を凌駕した。特に訓練データが3以下の超少数サンプル文字種の認識精度においては、文字種に着目したResNet-18分類器の50倍を超える精度を達成し、55%ほどのサンプルで正解した。また訓練データにサンプルのない無サンプル文字種の認識についても50%以上の正解率を達成した。
|
Strategy for Future Research Activity |
本年度で開発した文字認識手法は、人間の知識を用いて文字の構造情報を決定した。今後は、機械学習の枠組を用いて構造情報を決定することで、より認識に適した構造情報を抽出することを目指す。また、生成系の機械学習手法を応用することで、くずし字画像を生成して学習データを増強することも検討する。
|
Causes of Carryover |
本年度の研究開発が順調に進んだため、年度末に成果をまとめて論文を投稿した。掲載費用の支払いに備えていたが、採択結果の通知は次年度以降となった。そのため、次年度使用額が生じた。
|
Research Products
(1 results)