研究課題/領域番号 |
14380184
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 京都大学 (2003-2004) 国際日本文化研究センター (2002) |
研究代表者 |
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
研究分担者 |
加藤 寧 東北大学, 大学院・情報科学研究科, 教授 (00236168)
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
川口 洋 帝塚山大学, 経営情報学部, 教授 (80224749)
原 正一郎 国文学研究資料館, 研究情報部, 助教授 (50218616)
並木 美太郎 東京農工大学, 工学部, 助教授 (10208077)
|
研究期間 (年度) |
2002 – 2004
|
キーワード | 古文書 / 文字認識 / 手書きOCR / 文字認識辞書 |
研究概要 |
本研究は、古文書翻刻支援システム開発プロジェクト(HCRプロジェクト)において、手書き文字OCR技術などを発展的に応用して、古文書文字認識システムの高精度化に関する研究を行うことである。 平成14-16年度の研究期間において、主に古文書文字データベースを構築すること、及び日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い直し、以下の検討課題での研究をすすめ、成果を挙げた。 (1)文字切り出し法、及び正規化法について:射影ヒストグラム、文字外形の曲率などの手法を検討し、レイアウト認識では、Hough変換による行抽出方式を提案し、文字データベースの基づく実験を進めた。 (2)オフライン文字認識手法について:古文書文字認識に有効と考えられる文字切り出しと文字認識を連携処理させる方法について検討した。非線形正規化手法の研究及び実験を行った。 (3)オンライン文字認識手法について:くずし字検索等に適用可能なタブレット入力によるオンライン古文書文字認識手法について検討した。また、『くずし字解読辞典』の文字画像から筆順を推定する手法の研究を行った。本成果は、電子くずし字辞典として平成17年度中に刊行する予定である。 (4)東京堂出版『漢字くずし方辞典』の文字パターンを入力し、オンライン検索ソフトウェアの開発を行った。これも上記の(3)に含め、刊行予定である。 (5)文字認識用文字パターン辞書として、9種類の古文書文字データベースを公開した。すべてがHCRプロジェクトのホームページは,http//www.nichibun.ac.jp/shoji/hcr/からダウンロード可能である。また、公開したソフトウェアは、2種類GetAMojiマクロ(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能)、及びWeb版GetAMoji(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能のWeb版)である。
|