• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

光学文字読み取り装置によるコンコーダンス作成システムの開発

研究課題

研究課題/領域番号 62450054
研究種目

一般研究(B)

配分区分補助金
研究分野 国語学
研究機関国立国語研究所

研究代表者

飛田 良文  国立国語研究所, 言語変化研究部, 部長 (40000418)

研究分担者 加藤 信明  国語辞典編集室, 調査員
斎藤 秀紀  国立国語研究所, 言語計量研究部第三研究室, 室長 (70000429)
木村 睦子  国立国語研究所, 国語辞典編集室, 室長
見坊 豪紀  国立国語研究所, 国語辞典編集室, 調査員
林 大  国立国語研究所, 国語辞典編集室, 名誉所員調査員 (20000002)
KIMURA Mutsuko  Section for Dictionary Research, NLRI
KENBOO Hidetoshi  Section for Dictionary Research, NLRI
KATOO Nobuaki  Section for Dictionary Research, NLRI
研究期間 (年度) 1987 – 1988
研究課題ステータス 完了 (1988年度)
配分額 *注記
6,200千円 (直接経費: 6,200千円)
1988年度: 2,000千円 (直接経費: 2,000千円)
1987年度: 4,200千円 (直接経費: 4,200千円)
キーワードOCR / コンコーダンス / 『尋常小学国語読本』 / 『尋常小学国語読』
研究概要

本研究は、光学文字読み取り装置(Optical Character Reader以下OCR)を用いて用例集作成システムを開発することを目的としている。
OCRは、手書きの片仮名・英文字・記号を読み取って計算機に入力することができる装置であり、OCR用紙を使った作業台帳を用いて、本文の単位切りデータ、及び見出し語・品詞・同音語判別情報等のデータを付加することができる。本システムはOCR用紙を使った台帳によるデータの入出力を中心においたシステムで、用例集作成作業の効率向上と使いやすさを目指した。
このシステムを具体化するため、初年度は、すでに機械可読形式になっている第3期国定読本『尋常小学国語読本』(約10万語)の本文データの(1)単位切り作業、(2)口語文・文語文・会話文・韻文等の別を示す層別情報データの作成・入力・点検、(3)品詞付けOCRシートを用いた見出し語・品詞・同音語判別情報データの記入・点検、(4)OCR装置による読み取り、の作業を行った。
また計算機処理によって、(5)作業上必要な語彙表を出力し、(6)データ点検用プログラムを作成し、(7)作業用KWICの出力を行った。
第2年度は、上記作業に続けて、(8)KWICのデータ修正作業のための各種プログラムを作成し、(9)品詞付けOCRシートへの同音語判別情報の記入・点検作業を継続し、(10)各種訂正データ、及び漢字表記、活用、参照見出し、外来語等の情報を付加するための台帳の作成、(11)データの入力を行った。
最終的に、(12)KWIC出力用プログラムを作成し、(13)品詞・見出し情報を付加したKWICファイルを作成しシステムの開発を完成した。なお、(14)第3期国定読本の底本についての調査・検討を行い、本文に修正を加えた。

報告書

(3件)
  • 1988 実績報告書   研究成果報告書概要
  • 1987 実績報告書

URL: 

公開日: 1987-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi