1987 Fiscal Year Annual Research Report
光学文字読み取り装置によるコンコーダンス作成システムの開発
Project/Area Number |
62450054
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
飛田 良文 国立国語研究所, 言語変化研究部, 部長 (40000418)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 信明 国立国語研究所, 国語辞典編集準備室, 調査員
斎藤 秀紀 国立国語研究所, 言語計量研究部・第三研究室, 室長 (70000429)
木村 睦子 国立国語研究所, 国語辞典編集準備室, 調査員
見坊 豪紀 国立国語研究所, 国語辞典編集準備室, 調査員
林 大 国立国語研究所, 国語辞典編集準備室, 名誉所員調査員 (20000002)
|
Keywords | OCR / コンコーダンス / 『尋常小学国語読』 |
Research Abstract |
本研究は光学文字読み取り装置(Optical Character Reader 以下OCR)を用いて用例集作成を行なうシステムを開発することを目的としている. OCR装置は手書きの片仮名・英文字・記号を読み取って計算機に入力することができるものであり, OCR用紙を使った作業台帳を用いて, 本文の単位切リデータ, および見出し語・品詞・同音語判別情報等の付加データの作成を行なうことができる. 本システムはOCR用紙を使った台帳によるデータの入出力を中心においたシステムを構築し, 用例集作成の作業能率の向上と計算機利用システムを広く一般に開放することを図っている. 上記のシステムを具体化するため本研究では, 国定読本を対象として持例集の作成を進めている. 国定読本第三期〜第六期の本文がすでに機械可読形式になっており, 今年度はこのうち第三期の『尋常小学国語読本』(約10万語)を対象として用例集の作成を進めた. また, 用例集作成しための作業環境の一部としてパーソナルコンピュータを導入した. データ作成過程の支援ホストコンピュータが作成した用語データの加工・利用などをローカルに行なうためである. データの作成に関しては, 国定読本第三期の本文データの(1)単位切り作業を完了し, (2)全用語について口語文・文語文・会話文・韻文等の別を示す層別情報データの作成・入力・点検, (3)品詞付けOCRシートを用いた見出し語・品詞・同音語判別情報データの記入・点検, (4)OCR装置による読み取り作業を行なった. 計算機処理に関しては, (1)作業を進めるために必要な語彙表の出力, (2)データの点検を行なうためのプログラムの作成, (3)上記作業によって入力したデータによる作業用のKWICの出力を行なった.
|