1987 年度実績報告書

光学文字読み取り装置によるコンコーダンス作成システムの開発

研究課題

研究課題/領域番号	62450054
研究機関	国立国語研究所
研究代表者	飛田良文国立国語研究所, 言語変化研究部, 部長 (40000418)
研究分担者	加藤信明国立国語研究所, 国語辞典編集準備室, 調査員斎藤秀紀国立国語研究所, 言語計量研究部・第三研究室, 室長 (70000429) 木村睦子国立国語研究所, 国語辞典編集準備室, 調査員見坊豪紀国立国語研究所, 国語辞典編集準備室, 調査員林大国立国語研究所, 国語辞典編集準備室, 名誉所員調査員 (20000002)
キーワード	OCR / コンコーダンス / 『尋常小学国語読』
研究概要	本研究は光学文字読み取り装置(Optical Character Reader 以下OCR)を用いて用例集作成を行なうシステムを開発することを目的としている. OCR装置は手書きの片仮名・英文字・記号を読み取って計算機に入力することができるものであり, OCR用紙を使った作業台帳を用いて, 本文の単位切リデータ, および見出し語・品詞・同音語判別情報等の付加データの作成を行なうことができる. 本システムはOCR用紙を使った台帳によるデータの入出力を中心においたシステムを構築し, 用例集作成の作業能率の向上と計算機利用システムを広く一般に開放することを図っている. 上記のシステムを具体化するため本研究では, 国定読本を対象として持例集の作成を進めている. 国定読本第三期〜第六期の本文がすでに機械可読形式になっており, 今年度はこのうち第三期の『尋常小学国語読本』(約10万語)を対象として用例集の作成を進めた. また, 用例集作成しための作業環境の一部としてパーソナルコンピュータを導入した. データ作成過程の支援ホストコンピュータが作成した用語データの加工・利用などをローカルに行なうためである. データの作成に関しては, 国定読本第三期の本文データの(1)単位切り作業を完了し, (2)全用語について口語文・文語文・会話文・韻文等の別を示す層別情報データの作成・入力・点検, (3)品詞付けOCRシートを用いた見出し語・品詞・同音語判別情報データの記入・点検, (4)OCR装置による読み取り作業を行なった. 計算機処理に関しては, (1)作業を進めるために必要な語彙表の出力, (2)データの点検を行なうためのプログラムの作成, (3)上記作業によって入力したデータによる作業用のKWICの出力を行なった.