研究課題/領域番号 |
62450054
|
研究種目 |
一般研究(B)
|
配分区分 | 補助金 |
研究分野 |
国語学
|
研究機関 | 国立国語研究所 |
研究代表者 |
飛田 良文 国立国語研究所, 言語変化研究部, 部長 (40000418)
|
研究分担者 |
加藤 信明 国語辞典編集室, 調査員
斎藤 秀紀 国立国語研究所, 言語計量研究部第三研究室, 室長 (70000429)
木村 睦子 国立国語研究所, 国語辞典編集室, 室長
見坊 豪紀 国立国語研究所, 国語辞典編集室, 調査員
林 大 国立国語研究所, 国語辞典編集室, 名誉所員調査員 (20000002)
KIMURA Mutsuko Section for Dictionary Research, NLRI
KENBOO Hidetoshi Section for Dictionary Research, NLRI
KATOO Nobuaki Section for Dictionary Research, NLRI
|
研究期間 (年度) |
1987 – 1988
|
研究課題ステータス |
完了 (1988年度)
|
配分額 *注記 |
6,200千円 (直接経費: 6,200千円)
1988年度: 2,000千円 (直接経費: 2,000千円)
1987年度: 4,200千円 (直接経費: 4,200千円)
|
キーワード | OCR / コンコーダンス / 『尋常小学国語読本』 / 『尋常小学国語読』 |
研究概要 |
本研究は、光学文字読み取り装置(Optical Character Reader以下OCR)を用いて用例集作成システムを開発することを目的としている。 OCRは、手書きの片仮名・英文字・記号を読み取って計算機に入力することができる装置であり、OCR用紙を使った作業台帳を用いて、本文の単位切りデータ、及び見出し語・品詞・同音語判別情報等のデータを付加することができる。本システムはOCR用紙を使った台帳によるデータの入出力を中心においたシステムで、用例集作成作業の効率向上と使いやすさを目指した。 このシステムを具体化するため、初年度は、すでに機械可読形式になっている第3期国定読本『尋常小学国語読本』(約10万語)の本文データの(1)単位切り作業、(2)口語文・文語文・会話文・韻文等の別を示す層別情報データの作成・入力・点検、(3)品詞付けOCRシートを用いた見出し語・品詞・同音語判別情報データの記入・点検、(4)OCR装置による読み取り、の作業を行った。 また計算機処理によって、(5)作業上必要な語彙表を出力し、(6)データ点検用プログラムを作成し、(7)作業用KWICの出力を行った。 第2年度は、上記作業に続けて、(8)KWICのデータ修正作業のための各種プログラムを作成し、(9)品詞付けOCRシートへの同音語判別情報の記入・点検作業を継続し、(10)各種訂正データ、及び漢字表記、活用、参照見出し、外来語等の情報を付加するための台帳の作成、(11)データの入力を行った。 最終的に、(12)KWIC出力用プログラムを作成し、(13)品詞・見出し情報を付加したKWICファイルを作成しシステムの開発を完成した。なお、(14)第3期国定読本の底本についての調査・検討を行い、本文に修正を加えた。
|