2012 Fiscal Year Annual Research Report
アジア文化圏の古文書アーカイビングのための基盤構築
Project/Area Number |
24300095
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
中川 正樹 東京農工大学, 大学院・工学研究院, 教授 (10126295)
|
Co-Investigator(Kenkyū-buntansha) |
朱 碧蘭 東京農工大学, 大学院・工学研究院, 助教 (50466918)
斎藤 隆文 東京農工大学, 大学院・工学研究院, 教授 (60293007)
堀田 政二 東京農工大学, 大学院・工学研究院, 准教授 (90346932)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 古文書 / アーカイブ / 画像処理 / 言語処理 / 文字認識 |
Research Abstract |
本研究では,研究期間内に次の4つの項目を達成することを目標にしている. (1)媒体に特有な画像処理方式の確立とライブラリ化 アジア文化圏においては,紙以前は木簡,竹簡などに墨で筆記されていることが多い.これらの媒体に特有な劣化,汚損・破損に対応できる画像処理技術を確立する. (2)言語に共通な文書解析手法の確立とライブラリ化 多字種,分かち書きなし,縦書き横書き混在,などに対応した手法を言語独立に確立する. (3)言語依存の文字認識と文書解析の確立とライブラリ化 言語共通にメタなシステムを提供し,個々の言語ごとに学習パターンから認識システムを構築できる戦略をとる.そのための方式やツールを確立する. (4)上記機能によるタグ付けと手書きアノテーション機能の確立 古文書のディジタルアーカイブには,発掘や採集情報のほかに,文書や文字にコードを割り振るタグ付けとアノテーションの付与が必須である 本年度は,(1),(2)(3)で基礎的研究を行い,特に(2)において,縦横へのヒストグラムの解析やボロノイ図,ハブ変換などによる行や文字への分割,ラベリングやモルフォロジによるノイズ除去,傾き補正や正規化などを開発し,また(3)において,古文書から切り出した文字パターンをクラスタリングしてラベル付けを行い,文字パターンデータベースを構築した.さらに,この段階のクラスタリングは精度が低いので,対話的に修正ができるシステムにした.そして,文字パターンデータベースの大半を学習パターンとして,文字認識エンジンを開発した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究開発は予定に遅れないように進めているが,対外発表が少し予定より遅れている.日本情報考古学会に論文を投稿して,条件付き採録を受けたが,本格的な発表は来年度からになる,
|
Strategy for Future Research Activity |
開発したソフトウェアの完成度を高めるともに,ライブラリとして公開する.また,アノテーションツールにオンライン手書き環境と文字認識を導入する.
|
Expenditure Plans for the Next FY Research Funding |
対外発表が予定より若干遅れてために未使用予算が生じたが,それらも合算して対外発表の経費にあてる.その他,当初の予定通りに,システム開発のための謝金を予定している.
|