研究課題/領域番号 |
24300095
|
研究機関 | 東京農工大学 |
研究代表者 |
中川 正樹 東京農工大学, 工学(系)研究科(研究院), 教授 (10126295)
|
研究分担者 |
朱 碧蘭 東京農工大学, 工学(系)研究科(研究院), 助教 (50466918)
斎藤 隆文 東京農工大学, 工学(系)研究科(研究院), 教授 (60293007)
堀田 政二 東京農工大学, 工学(系)研究科(研究院), 准教授 (90346932)
|
研究期間 (年度) |
2012-04-01 – 2016-03-31
|
キーワード | 古文書 / アーカイブ / 画像処理 / 言語処理 / 文字認識 |
研究実績の概要 |
本研究では,研究期間内に次の4つの項目を達成することを目標にしている.(1)媒体に特有な画像処理方式の確立とライブラリ化 アジア文化圏においては,紙以前は木簡,竹簡などに墨で筆記されていることが多い.これらの媒体に特有な劣化,汚損・破損に対応できる画像処理技術を確立する.(2)言語に共通な文書解析手法の確立とライブラリ化 多字種,分かち書きなし,縦書き横書き混在,などに対応した手法を言語独立に確立する.(3)言語依存の文字認識と文書解析の確立とライブラリ化 言語共通にメタなシステムを提供し,個々の言語ごとに学習パターンから認識システムを構築できる戦略をとる.そのための方式やツールを確立する.(4)上記機能によるタグ付けと手書きアノテーション機能の確立 古文書のディジタルアーカイブには,発掘や採集情報のほかに,文書や文字にコードを割り振るタグ付けとアノテーションの付与が必須である.初年度には,古文書に見られる黒ずみやくすみなどを除去するノイズ除去,そして,文書からの行切り出し・文字切り出しの手法を研究し,そのプロトタイプを作成した.本年度は,その改良に加えて, ベトナムのチュノム文書を解読するために,4万字種にも及ぶチュノム文字認識システムのプロトタイプを作成した.また,奈良平城京などから出土する木簡を対象に,アノテーションツールを開発した.このアノテーションツールは,奈良文化財研究所で試用に供している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度に作成した チュノム文字認識システムのプロトタイプを改良した.また,奈良平城京などから出土する木簡を対象にしたアノテーションツールの バージョンアップを行った.このアノテーションツールは,奈良文化財研究所で使用に供している.さらに,出土するのは原 型をとどめる木簡だけでなく,大量の削りくずが含まれており,これらを組みわせてみる方式を研究した.以上の成果を国 際会議で発表し,国際学術誌に論文投稿した.また,国内での研究会でも発表した.
|
今後の研究の推進方策 |
本年度は,昨年に引き続き,方式やシステムにス パイラル法を適用し,各手法の完成度を高め,ライブラリを更新していく.そして,言語依存の部分とそうでない部分をできる限り分離する. さらに,ベトナムのチュノム文書の解読のために開発したベト ナム古文書のOCRをWebベー スで公開する準備を進める.古文書を 受信し,それを解読して結果を返すシステムに発展させたいと考えている.奈良平城京か ら出土する削りくずの組合せのためには,色や木目の基づいたクラスタリングを適用し,そのうえで,ジグソーパズルのように遊び感覚で組み 合わせて見られるゲームを作成し,公開したいと考えている.さらに,次 のことを他機関や他大学と連携して研究開発することを検討する.
|
備考 |
研究室HP http://www.tuat.ac.jp/~nakagawa/
|