研究課題
基盤研究(A)
古典籍・古文書解読のための自習システムとして、PIP(PartialImesProcessor)を開発した。PIPの機能を簡単に列記すると、縦書き右から左へ展開するテキストデータベースと画像データベースのn対nの対応が可能である。入力訂正システムを別途用意、ユニコード外字の貼り付け、全文検索、縦書き表示が可能、テキストデータベースと画像データベースとを二つのディスプレイ画面で表示できるなどの特性を有する。開発中のためシステムとしての安定性には問題を抱えているが、日本語環境における学術支援システムとしての先進性を備えていると自負している。日本語のテキスト処理に関しては既に処女地はなくなっているが、日本語環境における学術支援システムとして、画像とテキストの対応処理への需要は高い(筆跡認定や蒐集、バーチャル文書館の処理、彫刻絵画など二次元資料化への応用、各種教育システムや教材の開発など広汎なが期待される)。しかし、現実には従来人が行ってきた切り貼り程度の作業も簡単ではない(筆跡の判定は従来字体の比較を根拠としているのであるが)。システムとしての安定性の確保、需要に応じた個別のインターフェイスの改良、画像の線的処理と任意切り出し、画像登録の半自動化などがなお当面の課題を残す。その他としては、レイヤー処理や二値化による自動画像修復技術の導入、写本版本用のOCRの開発などを視野に入れて開発を継続すれば、文化財全体を扱えるものとなる筈である。PIPの部分画像の切り出しと、それを文字列に関係付ける作業は現段階では目視によって行うしかないのが現状であり(例えば写経のように下敷きを用いて謹直に書写され、行数と一行文字数が固定している場合には、本研究では、行単位での切り出しと文字列との関係付けを自動的におこなうところまでは完成しているのであるが)、教材の如く限られた史料について、一度入力処理を施したものを繰り返して使用する様な場合には、煩を厭わず部分画像の切り出しと文字列との関係付け作業を行っても余りある効果が得られるが、膨大なデータベースを構築する場合には、より改善される必要がある。その場合、OCRで開発されているような<画像と認識結果の同期的表示>技術を導入すれば比較的簡単にこの技術的障害を乗り越えることができるであろう。しかし、例えば書簡など、女房奉書などがその好例であるが、毛筆による連綿で書写され、しかも一行としてのコントロールが困難なものについては、自動化はやや困難であるかもしれない。とかく写本は一行の文字数や文字の大小が不等で処理に人手がかかり、当面この課題の克服には時間がかかると予想される。