研究概要 |
本研究の基本構想は、あらかじめ準備した辞書データをもとに、機械が未知語を検出し、その品詞と意味とを推定することのできる辞書データベースを作成することである。本年度はこの基本構想のもとに、当初の計画・方法に従って研究を推進し、以下の成果を収めた。 1.辞書データベースシステムの詳細仕様の決定:高度辞書データベースに格納する辞書データの容量、および未知語自動検出部、未知語品詞意味推定部の仕様の詳細を決定した。なお、システム記述言語Arity/Prologの仕様を考慮して、高次辞書データベース構築用装置の主記憶を40メガバイト程度と設定した。 2.辞書データの詳細仕様の決定:高度辞書データベースに格納する辞書データの内容と形式とを、詳細にわたり決定した。辞書項目数は、名詞187,868個、代名詞654個、動詞個(ただし、五段活用型8,036個、サ変型244個、カ変型1個、上一段型265個、下一段型2,074個)形容詞1,124個、副詞個,連体詞個、助動詞30個、助詞53個(ただし、格助詞10個、副助詞8個、係助詞6個、接続助詞17個、終助詞12個)となった。 3.高度辞書データベースシステムの作成:平成7年度の成果と上記1と2の仕様にもとづき、高度辞書データベースシステムを構築した。プログラミング言語は,Arity/Prolog(ライフボ-ト社)を採用し、プログラムは全体で約142キロバイトとなった。 4.高度辞書データベースシステムの評価:EDR電子化辞書や広辞苑をもとに作成した辞書データと、新聞記事等の電子化テキストを利用して、システムの処理性能評価実験を行った。その結果、処理精度・処理速度の観点から、本システムの基本的有効性が確認された。
|