本研究では,シンボル分割,シンボル認識,位置関係認識のすべてに曖昧性を有する2次元構造の手書き数式を対象に,その構造認識,特にその中核の文脈処理のレベルを飛躍的に高めることを目標にしてきた.手書き変動が字形だけでなく位置変動にも生じるために,上記のすべてに影響を与える課題である.ただし,手書き数式認識に特化した手法ではなく,手書き数式認識を包含して,より包括的な構造解析的パターン認識の進展を阻んできたノイズを含む多次元構造あるいはグラフ構造の曖昧性解消に資することを目指してきた. 本研究において,深層ニューラルネットワークで非明示的に幾何文脈などを学習し,それを補うために明示的に言語文脈を評価する方法が優れていることを明らかにした.具体的には,複数の部分構造に「注意」を払うエンコーダ・デコーダモデルの構成,ラベル付き学習パターンの不足を補う半教師付き学習,言語文脈を評価関数に重み付きで加えることで,認識性能が大幅に向上した.さらに,学習パターン数を人工的に拡大するために,手書き数式パターンの自動生成手法も研究してきた.2023年8月の文書解析と認識の国際会議(ICDAR 2023)で開催される手書き数式認識コンテストCROHME 2023の主催側に参加し,自動生成した数式パターンを学習パターンとして提供した. 当初の目的はほぼ昨年度までに達成し,今年度の学会発表は,電子情報通信学会の半教師付き学習の1件だけとなった.ただ,これはICDAR 2023に採録され,発表予定である. 本研究の残された課題としては,明示的な文脈をどれだけ高め,人間の数式認識に迫る精度が挙げられるかである.また,本研究の利用分野として,手書き答案の自動採点がある.現在は,小学校と中学校の各学年40人の,国語,算数(数学),英語の手書き答案の自動採点,半自動採点の実現に向けて課題解決に取り組んでいる.
|