インターネットにおける学術漢字の符号化に関する研究
Project/Area Number |
08207122
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
斎藤 秀紀 国立国語研究所, 情報資料研究部, 室長 (70000429)
|
Co-Investigator(Kenkyū-buntansha) |
菱沼 透 創価大学, 文学部, 教授 (30015945)
大坪 一夫 東北大学, 文学部, 教授 (20115538)
横山 詔一 国立国語研究所, 情報資料研究部, 主任研究官 (60182713)
柳沢 好昭 国立国語研究所, 日本語教育センタ, 室長 (80249911)
|
Project Period (FY) |
1996
|
Project Status |
Completed (Fiscal Year 1996)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 1996: ¥2,300,000 (Direct Cost: ¥2,300,000)
|
Keywords | 新聞記録データベース / 漢字データベース / イメージ処理 / 電子メディア / 漢字使用頻度表 / 漢字認知 / コーパス / 漢字の意味 |
Research Abstract |
1.今年度は、1966年発行朝日・毎日・読売朝夕刊の用語用字調査で1/60の面サンプリングの対象となつた切り抜き記事をイメージでデータベースに記録するプログラムを作成し、朝日新聞について入力作業を行った。本プログラムは、新聞切り抜き記事データをスキャナから読み込み、クライアント・サーバ環境においた2台のパーソナル・コンピュータで実行するシステムである。イメージ情報として新聞記事をデータベースとした目的は、新聞調査のデータ保存の他、漢字と文列データベースの原簿として理容師、校正漏れに対する補助手段とするために設けた。検索処理は、サーバにおいた新聞記事のイメージ・データをクライアンから直接または漢字データベースを介して検索を行う。指定できる検索キ-の種類は、新聞種類、発行月、日、紙面のページ、サンプリング・ブロック番号の5種である。また、画面に表された新聞切り抜き記事は、画面上で拡大、縮小、切り取り、ファイル出力を指定する機能を設けた。検索処理およびイメージの読み込みプログラムは、Visual BasicとVisual Cを使用した。また、データ葉、圧縮記録した。 2.朝日新聞記事全文データベースに出現するすべてのゲタ文字「=」を大型汎用計算機で検索し、縮刷版と照らし合わせて実際の紙面での表記を同定した。それらの一覧表を作成したところ、ゲタ文字は、「真正」、「不正」、「隠れ」の3つのタイプに分類できることが明らかになった。不正ゲタ文字と隠れ文字をめぐって、その出現を招いた原因を推論した。 3.「英日漢計算機詞彙」(中国科学院)の入力の継続およびファイルの修正を行った。また、上記のファイルに出現する漢字のうち、出現頻度の高い漢字について、一般語(主として小説の言語)における意味・用法を調べ、両者の比較を行った。
|
Report
(1 results)
Research Products
(14 results)