大量学術情報データベースを対象とした語いの分析

Research Project

Project/Area Number	62210003
Research Category	Grant-in-Aid for Special Project Research
Allocation Type	Single-year Grants
Research Institution	University of Tsukuba
Principal Investigator	中山和彦筑波大学, 電子情報工学系, 教授 (50091913)
Co-Investigator(Kenkyū-buntansha)	山本順人筑波大学, 電子情報工学系, 助手 (30111090) 坂口瑛筑波大学, 電子情報工学系, 助教授 (90026021)
Project Period (FY)	1986 – 1988
Project Status	Completed (Fiscal Year 1987)
Budget Amount *help	¥1,500,000 (Direct Cost: ¥1,500,000) Fiscal Year 1987: ¥1,500,000 (Direct Cost: ¥1,500,000)
Keywords	データベース / 語い分析 / 出現頻度 / 学術情報 / 類似度
Research Abstract	本研究は筑波大学学術情報処理センサーにおける学術文献のデータ・ベースである「UTOPIA」を対象に, 文献情報を構成している語い(キーワード)の統計的性質,およびキーワードの抽出法を実証的に明確化させ, その結果をもとに, 文献データ・ベース構築の高度化を図ることを目的としたものである. 調査対象データ・ベースは, 広範囲の分野をおおうデータを持つものを13種選び, これに日常語の調査データをリファレンスとして用い, 以下のような研究を行い, いくつかの成果を得ることができた. (1)語いの包含関係. データ・ベース中に出現する語いの種類とそれをふくむデータ・ベース数の関係から, 語いが特定の分野でのみ多様される, いわゆる専門用語で記述されているか, または, より普遍的な用語が用いられているかを調査した. その結果, 14種データ・ベース中12種に含まれる語いがもっとも少なく, 約2600語であること, 使用されている日常語は, 約8000語であることがわかった. (2)語い集合の類似度. 語い空間から各データ・ベースの特徴を見出すことを試みた. すなわち, 各語いのデータ・ベース中に出現する度数から定義される正規化出現度数を用いてデータ・ベース間の類似度を, 3種類の方法で定義し, 対象データ・ベースに対し求めた. (3)因子分析法を用いた解析. 類似度をもとに, 各データ・ベースが覆っている学術分野の傾向をもとめる因子分析を行った. その結果, データ・ベースを特徴付ける因子として, 「生体に関する因子」, 「社会活動に関する因子」, 「技術に関する因子」を抽出することができた. (4)クラスター分析を用いた解析. 各類似度データに, クラスター分析を行い, データ・ベースのグループ化を試み, (3)の結果と比較した.

Report

(1 results)

1987 Annual Research Report