本研究は、考古学関係用語シソーラスおよび考古学関係用語の日英対訳データベースを構築し、全国の発掘報告書の全文データを格納している「全国遺跡報告総覧」システムを拡張開発することで日本考古学の国際化に資することを目的とする。 2019年度は①類義語およびOCR誤認識用語検索機能を公開した。用語の類義関係を整理し、内部にシソーラスを構築することで、類義語も含めて検索できるようにした。またOCR処理の際、誤認識されやすい漢字をとりまとめ、専門用語と突合することによって、表記ゆれ専門用語約6万語を生成し、システムに組み込んだ。②用語の読みの付与。新たに用語の読みについて情報整理した。読みの数は64791となった。③画像認識機能の試行。海外からのニーズが高い画像認識機能について、引き続き実践適用について試行した。④用語の共起関係や類似語の判定処理を組み込んだ。用語整理の際、特徴語抽出の参考となるようダイス係数・相互情報量・対数尤度比・Tスコア等の指標を実装した。
|