研究課題/領域番号 |
22K12729
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
宮崎 智 東北大学, 工学研究科, 助教 (10755101)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | くずし字認識 / 文字構造の理解 / 文書解析 / 古典籍 / くずし字 / 構造解析 / 画像認識 / グラフ解析 |
研究開始時の研究の概要 |
くずし字の多くの文字種はデータ不足のために高精度な認識を実現できておらず、あらゆるくずし字を高精度に認識する技術の開発は未だ挑戦的な課題である。本研究では限られたデータを活用して少ない文字種をも高精度に認識できるくずし字認識技術を開発することを目的とする。具体的には、申請者のこれまでの研究成果であるグラフパターン解析技術と文字画像の自動生成技術に関する知見を活用し、くずし字を構成する本質的な部分構造を抽出することで複数の文字種を相補的に学習する技術を開発する。
|
研究実績の概要 |
本年度は、文字部位に着目した古典籍中の少数サンプル文字認識手法を開発した。 一般的なくずし字認識手法が文字種毎に多量のサンプルを必要とするのに対し、現実では多くの文字種においてサンプルが不足している。具体的には最大級のくずし字データセットにおいてすら、文字種の約1/3はたった3枚以下のサンプルしか持たない。 本研究ではこうした少数サンプル文字種や無サンプル文字種の認識のため、漢字中の文字部位に着目したくずし字認識手法を開発した。例えば「字」という漢字は大まかに上部「宀」と下部「子」から構成される。この上部と下部から構成される漢字の構成方法は他の多くの漢字に共通すると同時に、文字部位「宀」「子」もまた他の多くの漢字に共通する。こうした多様な漢字に共通する文字部位要素の認識であれば、多サンプル文字種を活用した学習が可能である。そこで本研究では文字部位に着目することによって、少数サンプル文字種や無サンプル文字種のより高精度な認識を行った。 本研究では、漢字構造データベースを活用し日本語漢字文字における文字部位に着目したラベルの作成とくずし字画像への文字部位情報の付与を行った。また文字部位特徴を効果的に得るための擬似的漢字文字画像サンプルによる事前学習を開発した。この事前学習を施した特徴抽出器について、作成したくずし字サンプルを用いてファインチューニングすることで、くずし字画像から有効に文字部位特徴を得られる文字部位特徴抽出器を作成した。この文字部位特徴抽出器及び最近傍法から構成される新しいくずし字認識器を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は日本の古典籍くずし字認識における少数サンプル文字種や無サンプル文字種のより高精度な認識のために、3つの要素技術を開発した。(1)日本語漢字文字種に対する文字部位に着目したラベル作成手法。(2)文字部位特徴の効果的な抽出のための擬似的漢字文字サンプルを用いた事前学習。(3)文字部位特徴を有効に活用する無サンプル文字種の認識可能な新しいくずし字認識手法。これらの要素技術を統合した提案手法は文字種に着目した一般的な認識手法の少数サンプル文字種認識精度を凌駕した。特に訓練データが3以下の超少数サンプル文字種の認識精度においては、文字種に着目したResNet-18分類器の50倍を超える精度を達成し、55%ほどのサンプルで正解した。また訓練データにサンプルのない無サンプル文字種の認識についても50%以上の正解率を達成した。
|
今後の研究の推進方策 |
本年度で開発した文字認識手法は、人間の知識を用いて文字の構造情報を決定した。今後は、機械学習の枠組を用いて構造情報を決定することで、より認識に適した構造情報を抽出することを目指す。また、生成系の機械学習手法を応用することで、くずし字画像を生成して学習データを増強することも検討する。
|