1993 Fiscal Year Annual Research Report
欧文文字読取認識装置による全文テキストデータベース作成と電子辞典の研究
Project/Area Number |
04551009
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
浅野 和也 松江工業高等専門学校, 一般科目, 教授 (50043633)
|
Co-Investigator(Kenkyū-buntansha) |
高橋 栄 松江工業高等専門学校, 一般科目, 助教授 (40179487)
伊藤 善啓 松江工業高等専門学校, 一般科目, 助教授 (30099840)
|
Keywords | 文字読取認識 / 全文テキストデータベース |
Research Abstract |
平成4年度に構築した欧文ドキュメント読取認識システムを使用して英語で書かれた文学作品をパーソナルコンピュータで処理可能なテキスト形式のデータとして読み込み、データベース化した。このデータベースを対象として作品ごとの索引、語彙集を作成した。現時点では一作家の全作品をデータベース化し、作家ごとのコンコーダンスの作成が進行中である。これが完成するとコンピュータによる文学作品や研究論文の解析研究が大いに進捗する。つまり、全作品中の使用単語を全て文脈つきで検索することを目指すものであり、これによって、特定の単語をその作家がどのように使用しているかを容易に知ることが出来る。また、複数の作家のコンコーダンスを比較することにより作家の言語使用の性向を知ることも出来る。このようなコンコーダンスは聖書やシェークスピアの作品等では作成されているが印刷体であり、コンピュータ処理には不適である。他の作家の作品については、コンコーダンス作成が多大な時間と労力を要するものあることからその緒についたばかりであるが、本研究によるようなシステムが威力を発揮することは明らかである。 コンパクトな独々辞典の読み取りを行い、用例、同義語、反意語等の単語についての各種情報を検索して使用するプログラムの開発を行ったが、検索速度等に問題があり、満足なものが出来ていない。しかし、ワードプロセッサ、データベース処理プログラム等のアプリケーションプログラムに組み込むことによって実用に堪えるものとなるであろう。 近年、各種のデータがCD-ROMにより大量且つ廉価に提供されるようになり、紙とインクによる出版から電子出版への移行が予想されているが、これまで人類が蓄積してきた膨大な印刷体のデータを電子情報へと変換する装置や処理手法の開発が急務となっている。
|
Research Products
(1 results)