• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

大量学術情報データベースを対象とした語いの分析

Research Project

Project/Area Number 62210003
Research Category

Grant-in-Aid for Special Project Research

Allocation TypeSingle-year Grants
Research InstitutionUniversity of Tsukuba

Principal Investigator

中山 和彦  筑波大学, 電子情報工学系, 教授 (50091913)

Co-Investigator(Kenkyū-buntansha) 山本 順人  筑波大学, 電子情報工学系, 助手 (30111090)
坂口 瑛  筑波大学, 電子情報工学系, 助教授 (90026021)
Project Period (FY) 1986 – 1988
Project Status Completed (Fiscal Year 1987)
Budget Amount *help
¥1,500,000 (Direct Cost: ¥1,500,000)
Fiscal Year 1987: ¥1,500,000 (Direct Cost: ¥1,500,000)
Keywordsデータベース / 語い分析 / 出現頻度 / 学術情報 / 類似度
Research Abstract

本研究は筑波大学学術情報処理センサーにおける学術文献のデータ・ベースである「UTOPIA」を対象に, 文献情報を構成している語い(キーワード)の統計的性質,およびキーワードの抽出法を実証的に明確化させ, その結果をもとに, 文献データ・ベース構築の高度化を図ることを目的としたものである. 調査対象データ・ベースは, 広範囲の分野をおおうデータを持つものを13種選び, これに日常語の調査データをリファレンスとして用い, 以下のような研究を行い, いくつかの成果を得ることができた.
(1)語いの包含関係. データ・ベース中に出現する語いの種類とそれをふくむデータ・ベース数の関係から, 語いが特定の分野でのみ多様される, いわゆる専門用語で記述されているか, または, より普遍的な用語が用いられているかを調査した. その結果, 14種データ・ベース中12種に含まれる語いがもっとも少なく, 約2600語であること, 使用されている日常語は, 約8000語であることがわかった.
(2)語い集合の類似度. 語い空間から各データ・ベースの特徴を見出すことを試みた. すなわち, 各語いのデータ・ベース中に出現する度数から定義される正規化出現度数を用いてデータ・ベース間の類似度を, 3種類の方法で定義し, 対象データ・ベースに対し求めた.
(3)因子分析法を用いた解析. 類似度をもとに, 各データ・ベースが覆っている学術分野の傾向をもとめる因子分析を行った. その結果, データ・ベースを特徴付ける因子として, 「生体に関する因子」, 「社会活動に関する因子」, 「技術に関する因子」を抽出することができた.
(4)クラスター分析を用いた解析. 各類似度データに, クラスター分析を行い, データ・ベースのグループ化を試み, (3)の結果と比較した.

Report

(1 results)
  • 1987 Annual Research Report

URL: 

Published: 1987-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi