1993 Fiscal Year Annual Research Report
高速・高精度の検索機能と語彙知識の獲得機能とを有する辞書データベースの試作
Project/Area Number |
05558038
|
Research Institution | Tokyo University of Science |
Principal Investigator |
藤崎 博也 東京理科大学, 基礎工学部, 教授 (80010776)
|
Co-Investigator(Kenkyū-buntansha) |
倉島 節尚 (株)三省堂, 出版局, 局長
広瀬 啓吉 東京大学, 工学部, 助教授 (50111472)
亀田 弘之 東京工科大学, 工学部, 助教授 (00194994)
|
Keywords | 高速・高精度検索 / 語彙知識の獲得 / 辞書データベース / 大規模テキストデータ / 情報階層構造モデル / データ管理システム |
Research Abstract |
本研究の基本構想は、単語辞書データとその管理システムとからなる辞書データベースを試作し、大規模テキストデータを用いてその性能を評価することである。本年度はこの基本構想のもとに、当初の計画・方法に従って研究を推進し、以下の成果を収めた。 1.単語辞書データの作成・整理 東京大学の大型計算機上で、新明解国語辞典(三省堂、第3版)をもとにデータを加工・拡張して単語辞書データ(約17万語)を作成し、コード変換(KEISコードからEUCコードへ)を行って辞書データベース構築用装置上に移植し、整理した。 2.情報階層構造モデルにもとづく単語辞書の構築 上記1.のデータから処理の対象とする分野の関連の深い単語を選定して部分辞書を作成し、すでに開発した情報階層モデルにもとづいてこれを構造化し、単語辞書として辞書データベース構築用装置上に格納した。 3.データ管理システムの基本設計 データ管理システムの構成に関し、データ生成部、データ検索部、データ変更部、データ追加部、データ獲得部、情報構造管理部、およびマンマシンインタフェイス部の7部からなる基本設計を行った。 4.データ管理システムの実装とその基本的動作の確認 上記3.の各部の基本部分を、C言語とObjective C言語とを用いて辞書データベース構築用装置上にインプリメントし、上記2.のデータを用いて基本的な動作の確認を行った。 5.大規模テキストデータの整理と辞書データベースの予備的評価 すでに作成した新聞記事データ(朝日新聞朝夕刊84日分)を、文字コードとファイル形式に関して加工し、辞書データベースの予備的評価を行い、当初の計画が達成される見通しを得た。
|
Research Products
(3 results)
-
[Publications] 横田和幸: "認知単位を基本とする文解析手法の検討" 情報処理学会第48回(平成6年前期)全国大会講演論文集. 3. 60-70 (1994)
-
[Publications] 亀田弘之: "用例からの類推にもとづく知識の獲得と一般化について-未知複合語の獲得を中心にして-" 電子情報通信学会「言語・知識の獲得と運用」研究会資料. 1-8 (1993)
-
[Publications] 亀田弘之: "日本語文章理解における未知語とその処理" 「知識科学の最前線」シンポジウム論文集. 17-27 (1993)