研究課題/領域番号 |
05558038
|
研究機関 | 東京理科大学 |
研究代表者 |
藤崎 博也 東京理科大学, 基礎工学部, 教授 (80010776)
|
研究分担者 |
倉島 節尚 (株)三省堂, 出版局, 局長
広瀬 啓吉 東京大学, 工学部, 助教授 (50111472)
亀田 弘之 東京工科大学, 工学部, 助教授 (00194994)
|
キーワード | 高速・高精度検索 / 語彙知識の獲得 / 辞書データベース / 大規模テキストデータ / 情報階層構造モデル / データ管理システム |
研究概要 |
本研究の基本構想は、単語辞書データとその管理システムとからなる辞書データベースを試作し、大規模テキストデータを用いてその性能を評価することである。本年度はこの基本構想のもとに、当初の計画・方法に従って研究を推進し、以下の成果を収めた。 1.単語辞書データの作成・整理 東京大学の大型計算機上で、新明解国語辞典(三省堂、第3版)をもとにデータを加工・拡張して単語辞書データ(約17万語)を作成し、コード変換(KEISコードからEUCコードへ)を行って辞書データベース構築用装置上に移植し、整理した。 2.情報階層構造モデルにもとづく単語辞書の構築 上記1.のデータから処理の対象とする分野の関連の深い単語を選定して部分辞書を作成し、すでに開発した情報階層モデルにもとづいてこれを構造化し、単語辞書として辞書データベース構築用装置上に格納した。 3.データ管理システムの基本設計 データ管理システムの構成に関し、データ生成部、データ検索部、データ変更部、データ追加部、データ獲得部、情報構造管理部、およびマンマシンインタフェイス部の7部からなる基本設計を行った。 4.データ管理システムの実装とその基本的動作の確認 上記3.の各部の基本部分を、C言語とObjective C言語とを用いて辞書データベース構築用装置上にインプリメントし、上記2.のデータを用いて基本的な動作の確認を行った。 5.大規模テキストデータの整理と辞書データベースの予備的評価 すでに作成した新聞記事データ(朝日新聞朝夕刊84日分)を、文字コードとファイル形式に関して加工し、辞書データベースの予備的評価を行い、当初の計画が達成される見通しを得た。
|