1988 年度実績報告書

光学文字読み取り装置によるコンコーダンス作成システムの開発

研究課題

研究課題/領域番号	62450054
研究機関	国立国語研究所
研究代表者	飛田良文国立国語研究所, 言語変化研究部, 部長 (40000418)
研究分担者	加藤信明国立国語研究所, 国語辞典編集室, 調査員斎藤秀紀国立国語研究所, 言語計量研究部第三研究室, 室長 (70000429) 木村睦子国立国語研究所, 国語辞典編集室, 室長見坊豪紀国立国語研究所, 国語辞典編集室, 調査員林大国立国語研究所, 国語辞典編集室, 名誉所員調査員 (20000002)
キーワード	OCR / コンコーダンス / 『尋常小学国語読本』
研究概要	本研究は、光学文字読み取り装置(Optical Character Reader以下OCR)を用いて用例集作成を行うシステムを開発することを目的としている。 OCRは、手書きの片仮名・英文字・記号を読み取って計算機に入力することができる装置であり、OCR用紙を使った作業台帳を用いて、本文の単位切りデータ、及び見出し語・品詞・同音語判別情報等のデータを付加することができる。本システムはOCR用紙を使った台帳によるデータの入出力をその中心におき、用例集作成作業の効率向上と使いやすさを目指した。本年度は、初年度の作業に引き続き、第3期国定読本の約10万語を対象に次の作業を行った。データ作成に関しては、同音語判別情報の付加・点検作業の継続に加え、漢字表記、活用、参照見出し、外来語等の台帳及び各種訂正用データを作成し、入力した。さらに、用例集の信頼性を高めるため、第3期国定読本の諸本について合計487冊の調査を行い、奥村からは分からない、使用年度を示す符号があることを発見し、学年進行の初年度使用本で底本を統一し、入力済み本文の修正を行った。また、漢字の字体についてはJISコードとの字体の対照表を作成し、さらに国定読本第1期から第5期に渡って使用された漢字のうち、字体に異同のあるものについて、全体の字体対照表を作成した。これらの成果を利用して本文の修正を行い、単位切り、見出し、品詞等の情報の訂正に伴う計算機処理のための各種プログラムを作成した。以上、本文データ及び付加情報を正確なものとした上で、KWIC最終出力用プログラムを作成し、見出し等の情報を付加したKWICファイルを出力、システムの開発を完成した。