2006 Fiscal Year Annual Research Report
江戸版本の読解を支援する運筆特徴を考慮したつづき文字の認識に関する研究
Project/Area Number |
17500165
|
Research Institution | Toyohashi Sozo University |
Principal Investigator |
舟久保 登 豊橋創造大学, 情報ビジネス学部, 教授 (70190121)
|
Co-Investigator(Kenkyū-buntansha) |
三好 哲也 豊橋創造大学, 情報ビジネス学部, 教授 (10254434)
島田 大助 豊橋創造大学, 情報ビジネス学部, 助教授 (50351177)
三輪 多恵子 豊橋創造大学, 情報ビジネス学部, 助教授 (60351178)
|
Keywords | 江戸版本 / 文字認識 / 運筆 |
Research Abstract |
本研究では、古典籍に含まれる文書に対する自動読み取りシステムの開発を目的としている。古典籍には、文字や画像が含まれ、文書によっては画像と文字が混合して構成されているため、図と文字の領域分割が必要である。また、文字は現代の活字体とは異なって「くずし字」からなっており、さらに時間の経過による原著の劣化(汚れ・虫損)や印刷技術の低さから古典籍に含まれる文字はかすれ、しみ、しわを有している。 古典籍に含まれる文字認識の精度向上には文字画像パターンを要素とする判別だけでなく、平仮名と漢字の構成比率や文字種の出現確率などの統計情報の活用が考えられる。また、古典籍に含まれる文字は、現在のような活版印刷ではなく、同一文字でも種々の崩し方やその程度によって多くの字形が存在する。そのため「崩し」に対する頑健制が求められる。以上の前提を踏まえ、古典籍から文字情報を抽出するために、本年度は以下の調査研究を進めた。 1.鳥居清経が関わる安永期の黄表紙仕立噺本の文字情報について報告を行い、現在継続中の文字認識システム構築のための基本データ収集を行った。発刊年別の十種の古典籍を分析した結果、漢字が平仮名に、複数の字母を持つ仮名が特定の平仮名に置き換えられる傾向を確認した。 2.仮名文字の運筆は字母となる漢字の筆順に依存しており、これを波形として扱うことで、崩し方の程度による文字形状の変化、および、文字間のつづきによる影響を軽減した文字認識システムが構築できる。そのためにまず、仮名文字のくずしの程度を変化させたときの周波数特性の変化を量的に評価した。そして、古典籍に含まれる仮名つづき文字に対して、手作業により運筆情報の抽出を行い、テンプレートとの絶対値差分和による文字認識の可能性を確認した。 3.つづき文字やくずし文字に対する文字認識のアプローチ1文字分割後に文字認識を行う方法と、分割をおこなわずに連続する文字一つのパターンとして認識する方法が考えられる。つづき文字やくずし文字の分割処理の不要な連続文字認識の認識精度を確認するために、連続2文字の認識手法の検討を行った。
|