• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1996 年度 実績報告書

語彙の自動獲得機能を有する計算機可読な高度辞書データベースシステムの試作

研究課題

研究課題/領域番号 07558274
研究機関東京理科大学

研究代表者

藤崎 博也  東京理科大学, 基礎工学部, 教授 (80010776)

研究分担者 倉島 節尚  (株)三省堂, 出版局, 常務取締役,出版局長
大野 澄雄  東京理科大学, 基礎工学部, 助手 (80256677)
亀田 弘之  東京工科大学, 工学部, 助教授 (00194994)
キーワード語彙獲得 / 辞書データベース / 未知語 / 知識の獲得 / 未知語処理 / prolog / 自然言語処理 / 機械学習
研究概要

本研究の基本構想は、あらかじめ準備した辞書データをもとに、機械が未知語を検出し、その品詞と意味とを推定することのできる辞書データベースを作成することである。本年度はこの基本構想のもとに、当初の計画・方法に従って研究を推進し、以下の成果を収めた。
1.辞書データベースシステムの詳細仕様の決定:高度辞書データベースに格納する辞書データの容量、および未知語自動検出部、未知語品詞意味推定部の仕様の詳細を決定した。なお、システム記述言語Arity/Prologの仕様を考慮して、高次辞書データベース構築用装置の主記憶を40メガバイト程度と設定した。
2.辞書データの詳細仕様の決定:高度辞書データベースに格納する辞書データの内容と形式とを、詳細にわたり決定した。辞書項目数は、名詞187,868個、代名詞654個、動詞個(ただし、五段活用型8,036個、サ変型244個、カ変型1個、上一段型265個、下一段型2,074個)形容詞1,124個、副詞個,連体詞個、助動詞30個、助詞53個(ただし、格助詞10個、副助詞8個、係助詞6個、接続助詞17個、終助詞12個)となった。
3.高度辞書データベースシステムの作成:平成7年度の成果と上記1と2の仕様にもとづき、高度辞書データベースシステムを構築した。プログラミング言語は,Arity/Prolog(ライフボ-ト社)を採用し、プログラムは全体で約142キロバイトとなった。
4.高度辞書データベースシステムの評価:EDR電子化辞書や広辞苑をもとに作成した辞書データと、新聞記事等の電子化テキストを利用して、システムの処理性能評価実験を行った。その結果、処理精度・処理速度の観点から、本システムの基本的有効性が確認された。

  • 研究成果

    (5件)

すべて その他

すべて 文献書誌 (5件)

  • [文献書誌] 亀田弘之: "未知語獲得システムの実験的評価" 電子情報通信学会1996年基礎・境界ソサイエティ大会講演論文集. 326-327 (1996)

  • [文献書誌] 久保村千明: "未知語獲得アルゴリズムの評価" 電子情報通信学会技術研究報告. TL96-6. 21-30 (1996)

  • [文献書誌] 横田和章: "日本語の文法および未知の認知単位の自動獲得のための一方法" 自然言語処理. 3・4. 115-128 (1996)

  • [文献書誌] 藤崎博也: "キ-概念の抽出と未知語の処理に基づく情報検索方式の高度化" 情報処理学会第54回(平成9年前期)全国大会講演論文集. 3. 23-24 (1997)

  • [文献書誌] 藤崎博也: "知的エージェントによるインターネット上の情報検索システム" 電子情報通信学会1997年総合大会講演論文集「情報・システム」. (発表予定). (1997)

URL: 

公開日: 1999-03-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi