研究概要 |
本研究では,研究期間内に次の4つの項目を達成することを目標にしている. (1)媒体に特有な画像処理方式の確立とライブラリ化 アジア文化圏においては,紙以前は木簡,竹簡などに墨で筆記されていることが多い.これらの媒体に特有な劣化,汚損・破損に対応できる画像処理技術を確立する. (2)言語に共通な文書解析手法の確立とライブラリ化 多字種,分かち書きなし,縦書き横書き混在,などに対応した手法を言語独立に確立する. (3)言語依存の文字認識と文書解析の確立とライブラリ化 言語共通にメタなシステムを提供し,個々の言語ごとに学習パターンから認識システムを構築できる戦略をとる.そのための方式やツールを確立する. (4)上記機能によるタグ付けと手書きアノテーション機能の確立 古文書のディジタルアーカイブには,発掘や採集情報のほかに,文書や文字にコードを割り振るタグ付けとアノテーションの付与が必須である 本年度は,(1),(2)(3)で基礎的研究を行い,特に(2)において,縦横へのヒストグラムの解析やボロノイ図,ハブ変換などによる行や文字への分割,ラベリングやモルフォロジによるノイズ除去,傾き補正や正規化などを開発し,また(3)において,古文書から切り出した文字パターンをクラスタリングしてラベル付けを行い,文字パターンデータベースを構築した.さらに,この段階のクラスタリングは精度が低いので,対話的に修正ができるシステムにした.そして,文字パターンデータベースの大半を学習パターンとして,文字認識エンジンを開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究開発は予定に遅れないように進めているが,対外発表が少し予定より遅れている.日本情報考古学会に論文を投稿して,条件付き採録を受けたが,本格的な発表は来年度からになる,
|