研究概要 |
本研究は筑波大学学術情報処理センサーにおける学術文献のデータ・ベースである「UTOPIA」を対象に, 文献情報を構成している語い(キーワード)の統計的性質,およびキーワードの抽出法を実証的に明確化させ, その結果をもとに, 文献データ・ベース構築の高度化を図ることを目的としたものである. 調査対象データ・ベースは, 広範囲の分野をおおうデータを持つものを13種選び, これに日常語の調査データをリファレンスとして用い, 以下のような研究を行い, いくつかの成果を得ることができた. (1)語いの包含関係. データ・ベース中に出現する語いの種類とそれをふくむデータ・ベース数の関係から, 語いが特定の分野でのみ多様される, いわゆる専門用語で記述されているか, または, より普遍的な用語が用いられているかを調査した. その結果, 14種データ・ベース中12種に含まれる語いがもっとも少なく, 約2600語であること, 使用されている日常語は, 約8000語であることがわかった. (2)語い集合の類似度. 語い空間から各データ・ベースの特徴を見出すことを試みた. すなわち, 各語いのデータ・ベース中に出現する度数から定義される正規化出現度数を用いてデータ・ベース間の類似度を, 3種類の方法で定義し, 対象データ・ベースに対し求めた. (3)因子分析法を用いた解析. 類似度をもとに, 各データ・ベースが覆っている学術分野の傾向をもとめる因子分析を行った. その結果, データ・ベースを特徴付ける因子として, 「生体に関する因子」, 「社会活動に関する因子」, 「技術に関する因子」を抽出することができた. (4)クラスター分析を用いた解析. 各類似度データに, クラスター分析を行い, データ・ベースのグループ化を試み, (3)の結果と比較した.
|