研究課題/領域番号 |
61220002
|
研究機関 | 筑波大学 |
研究代表者 |
中山 和彦 筑大, 電子・情報工学系, 教授 (50091913)
|
研究分担者 |
山本 順人 筑波大学, 電子情報工学系, 助手 (30111090)
坂口 瑛 筑波大学, 電子情報工学系, 助教授 (90026021)
|
キーワード | データ・ベース / 語い分析 / 出現頻度 / 学術情報 / 共出現 |
研究概要 |
本研究は筑波大学学術情報処理センターにおける学術文献のデータ・ベースである「UTOPIA」を対象に、文献情報を構成している語い(キーワード)の統計的性質、および、キーワードの抽出法を実証的に明確化させ、その結果をもとに、文献データ・ベース構築の高度化を目的としたものである。 調査対象データ・ベースは、広範囲をおおうデータを持つものを13種選び、これに、日常文の調査データをリファレンスとして用いた。 まず、分野に依存した語いの使用の相違を求めるために、それぞれのデータ・ベース中から特定の語いを抽出した。これらの語いは、二つのグループに分割できると考えられる。一つは、我々が日常語として文章中に用いている語であり、もう一つは、専門用語として特定の概念、意味等を表わす語である。そしてこれらの語いと、日常的な文章より抽出された語いデータとの共出関係を計量することにより、各語いの属するグループの特性、そしてそれより導かれる、データーベースの記述から見た特徴をもとめようとした。 また、これとは逆に、語い空門より各データ・ベースの特徴を見い出すことも試みた。すなわち、データ・ベース間の中の使用語い的類似度を、語いが正規化出現度数で出現するものとして数種類の方法を用いて求めた。そしてこの類似度をもとに、データの因子分析を試みた。この分析においては各データ・ベースを特徴づける軸として、「生体に関する因子」「生体の活動に関する因子」「技術に関する因子」を抽出する事ができた。各データベースは、この軸空間にプロットされる事により、先に述べた使用語いとの関係が認められた。最後に、本年度は、データ収集が大きな位置をしめてきたが、引き続き、データ量を増加させるとともに、語い集合の考察を引き続き進めてゆきたい。
|