研究課題/領域番号 |
04551009
|
研究種目 |
試験研究(B)
|
配分区分 | 補助金 |
研究分野 |
言語学・音声学
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
浅野 和也 松江工業高等専門学校, 一般科目, 教授 (50043633)
|
研究分担者 |
高橋 栄 松江工業高等専門学校, 一般科目, 助教授 (40179487)
伊藤 善啓 松江工業高等専門学校, 一般科目, 助教授 (30099840)
|
研究期間 (年度) |
1992 – 1993
|
研究課題ステータス |
完了 (1993年度)
|
配分額 *注記 |
1,300千円 (直接経費: 1,300千円)
1993年度: 100千円 (直接経費: 100千円)
1992年度: 1,200千円 (直接経費: 1,200千円)
|
キーワード | 文字読取認識 / 全文テキストデータベース |
研究概要 |
平成4年度に構築した欧文ドキュメント読取認識システムを使用して英語で書かれた文学作品をパーソナルコンピュータで処理可能なテキスト形式のデータとして読み込み、データベース化した。このデータベースを対象として作品ごとの索引、語彙集を作成した。現時点では一作家の全作品をデータベース化し、作家ごとのコンコーダンスの作成が進行中である。これが完成するとコンピュータによる文学作品や研究論文の解析研究が大いに進捗する。つまり、全作品中の使用単語を全て文脈つきで検索することを目指すものであり、これによって、特定の単語をその作家がどのように使用しているかを容易に知ることが出来る。また、複数の作家のコンコーダンスを比較することにより作家の言語使用の性向を知ることも出来る。このようなコンコーダンスは聖書やシェークスピアの作品等では作成されているが印刷体であり、コンピュータ処理には不適である。他の作家の作品については、コンコーダンス作成が多大な時間と労力を要するものあることからその緒についたばかりであるが、本研究によるようなシステムが威力を発揮することは明らかである。 コンパクトな独々辞典の読み取りを行い、用例、同義語、反意語等の単語についての各種情報を検索して使用するプログラムの開発を行ったが、検索速度等に問題があり、満足なものが出来ていない。しかし、ワードプロセッサ、データベース処理プログラム等のアプリケーションプログラムに組み込むことによって実用に堪えるものとなるであろう。 近年、各種のデータがCD-ROMにより大量且つ廉価に提供されるようになり、紙とインクによる出版から電子出版への移行が予想されているが、これまで人類が蓄積してきた膨大な印刷体のデータを電子情報へと変換する装置や処理手法の開発が急務となっている。
|