2003 Fiscal Year Annual Research Report
Project/Area Number |
14380184
|
Research Institution | Kyoto University |
Principal Investigator |
柴山 守 京都大学, 東南アジア研究センター, 教授 (10162645)
|
Co-Investigator(Kenkyū-buntansha) |
川口 洋 帝塚山大学, 経営情報学部, 教授 (80224749)
加藤 寧 東北大学, 大学院・情報科学研究科, 教授 (00236168)
山田 奨治 京都大学, 国際日本文化研究センター・研究部, 助教授 (20248751)
並木 美太郎 東京農工大学, 工学部, 助教授 (10208077)
原 正一郎 国文学研究資料館, 研究情報部, 助教授 (50218616)
|
Keywords | 古文書 / 文字認識 |
Research Abstract |
平成15年度は、まず本プロジェクトで整備してきた古文書文字データベースを利用して、既存の日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い直し、以下の検討課題での研究をすすめた。 (1)文字切り出し法、及び正規化法について:射影ヒストグラム、文字外形の曲率などの手法を検討し、レイアウト認識では、Hough変換による行抽出方式を提案し、実験した。 (2)オフライン文字認識手法について:古文書文字認識に有効と考えられる文字切り出しと文字認識を連携処理させる方法について検討した。辞書パターンをセグメントする対象行に対して、切り出し及び認識を連携する方式の実験を行った。 (3)オンライン文字認識手法について:くずし字検索等に適用可能なタブレット入力によるオンライン古文書文字認識手法について検討した。また、『くずし字解読辞典』の文字画像から筆順を推定する手法の研究を行った。 (4)東京堂出版『くずし字用例辞典』の筆順データを入力し、オンライン検索ソフトウェアを開発した。 (5)文字認識用文字パターン辞書として、『伏見屋善兵衛文書』本文に出現する各文字パターンの辞書を完成させて、公開した。 (6)現在整備している古文書文字データベースを補完するために、東京堂出版『くずし字用例辞典』(1,300頁、収録文字数約13万文字)の電子化を行い、今年度は、くずし字用例見出し部についてのインデックス入力、大漢和コード、JISコード及び今昔文字鏡コードの付与を行った。 以上の研究成果を、研究成果報告書(中間報告)『古文書翻刻支援システムの研究(3)』平成16年3月に発行した。
|
Research Products
(3 results)
-
[Publications] 和泉勇治, 加藤 寧ほか: "非線形正規化を応用した学習パターン生成による手書き文字認識"電子情報通信学会論文誌. J86-D-II, 10. 1391-1399 (2003)
-
[Publications] 山田 奨治, 柴山 守: "n-gramとOCRによる定型表現がある古文書文字の推定"情報処理学会研究報告. 2003,59. 17-24 (2003)
-
[Publications] 松本隆一, 増田好克, 柴山 守: "古文書におけるHough変換を用いた行抽出手法の提案"平成16年度電気学会全国大会講演論文集. 109-109 (2004)