1996 Fiscal Year Annual Research Report
語彙の自動獲得機能を有する計算機可読な高度辞書データベースシステムの試作
Project/Area Number |
07558274
|
Research Institution | The Science University of Tokyo |
Principal Investigator |
藤崎 博也 東京理科大学, 基礎工学部, 教授 (80010776)
|
Co-Investigator(Kenkyū-buntansha) |
倉島 節尚 (株)三省堂, 出版局, 常務取締役,出版局長
大野 澄雄 東京理科大学, 基礎工学部, 助手 (80256677)
亀田 弘之 東京工科大学, 工学部, 助教授 (00194994)
|
Keywords | 語彙獲得 / 辞書データベース / 未知語 / 知識の獲得 / 未知語処理 / prolog / 自然言語処理 / 機械学習 |
Research Abstract |
本研究の基本構想は、あらかじめ準備した辞書データをもとに、機械が未知語を検出し、その品詞と意味とを推定することのできる辞書データベースを作成することである。本年度はこの基本構想のもとに、当初の計画・方法に従って研究を推進し、以下の成果を収めた。 1.辞書データベースシステムの詳細仕様の決定:高度辞書データベースに格納する辞書データの容量、および未知語自動検出部、未知語品詞意味推定部の仕様の詳細を決定した。なお、システム記述言語Arity/Prologの仕様を考慮して、高次辞書データベース構築用装置の主記憶を40メガバイト程度と設定した。 2.辞書データの詳細仕様の決定:高度辞書データベースに格納する辞書データの内容と形式とを、詳細にわたり決定した。辞書項目数は、名詞187,868個、代名詞654個、動詞個(ただし、五段活用型8,036個、サ変型244個、カ変型1個、上一段型265個、下一段型2,074個)形容詞1,124個、副詞個,連体詞個、助動詞30個、助詞53個(ただし、格助詞10個、副助詞8個、係助詞6個、接続助詞17個、終助詞12個)となった。 3.高度辞書データベースシステムの作成:平成7年度の成果と上記1と2の仕様にもとづき、高度辞書データベースシステムを構築した。プログラミング言語は,Arity/Prolog(ライフボ-ト社)を採用し、プログラムは全体で約142キロバイトとなった。 4.高度辞書データベースシステムの評価:EDR電子化辞書や広辞苑をもとに作成した辞書データと、新聞記事等の電子化テキストを利用して、システムの処理性能評価実験を行った。その結果、処理精度・処理速度の観点から、本システムの基本的有効性が確認された。
|
-
[Publications] 亀田弘之: "未知語獲得システムの実験的評価" 電子情報通信学会1996年基礎・境界ソサイエティ大会講演論文集. 326-327 (1996)
-
[Publications] 久保村千明: "未知語獲得アルゴリズムの評価" 電子情報通信学会技術研究報告. TL96-6. 21-30 (1996)
-
[Publications] 横田和章: "日本語の文法および未知の認知単位の自動獲得のための一方法" 自然言語処理. 3・4. 115-128 (1996)
-
[Publications] 藤崎博也: "キ-概念の抽出と未知語の処理に基づく情報検索方式の高度化" 情報処理学会第54回(平成9年前期)全国大会講演論文集. 3. 23-24 (1997)
-
[Publications] 藤崎博也: "知的エージェントによるインターネット上の情報検索システム" 電子情報通信学会1997年総合大会講演論文集「情報・システム」. (発表予定). (1997)