2004 Fiscal Year Annual Research Report
Project/Area Number |
14380184
|
Research Institution | Kyoto University |
Principal Investigator |
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 寧 東北大学, 大学院・情報科学研究科, 教授 (00236168)
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
川口 洋 帝塚山大学, 経営情報学部, 教授 (80224749)
原 正一郎 国文学研究資料館, 研究情報部, 助教授 (50218616)
並木 美太郎 東京農工大学, 工学部, 助教授 (10208077)
|
Keywords | 古文書 / 文字認識 / 手書きOCR / 文字認識辞書 |
Research Abstract |
本研究は、古文書翻刻支援システム開発プロジェクト(HCRプロジェクト)において、手書き文字OCR技術などを発展的に応用して、古文書文字認識システムの高精度化に関する研究を行うことである。 平成16年度は、まず本プロジェクトで整備してきた古文書文字データベースを利用して、既存の日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い直し、以下の検討課題での研究をすすめた。 (1)文字切り出し法、及び正規化法について:射影ヒストグラム、文字外形の曲率などの手法を検討し、レイアウト認識では、Hough変換による行抽出方式を提案し、実験した。 (2)オフライン文字認識手法について:古文書文字認識に有効と考えられる文字切り出しと文字認識を連携処理させる方法について検討した。非線形正規化手法の研究及び実験を行った。 (3)オンライン文字認識手法について:くずし字検索等に適用可能なタブレット入力によるオンライン古文書文字認識手法について検討した。また、『くずし字解読辞典』の文字画像から筆順を推定する手法の研究を行った。 (4)東京堂出版『漢字くずし方辞典』の文字パターンを入力し、オンライン検索ソフトウェアの開発を行った。 (5)文字認識用文字パターン辞書として、『伏見屋善兵衛文書』本文に出現する各文字パターンの辞書を完成させて、公開した。1,436字種142,663文字の2値画像。 (6)現在整備している古文書文字データベースを補完するために、東京堂出版『くずし字用例辞典』(1,300頁、収録文字数約13万文字)の電子化を行い、今年度は、くずし字用例見出し部についてのインデックス入力、大漢和コード、JISコード及び今昔文字鏡コードの付与及び修正を行った。
|
Research Products
(2 results)