研究概要 |
計画の最終年度である平成16年度は,アンケート調査における自由回答文集計のプロトタイプシステムに対する性能評価を中心課題として研究に取り組んだ。研究では新入生のほぼ全数に対して行ったアンケート調査の結果を用いて開発中のシステムを用いた解析を行った。また市販されているテキストマイニングシステムについて調査し,そのうちの1つを購入し,開発したシステムと解析結果を比較することにより,性能や特性を相対的に評価する作業を行った。 解析に用いたデータは、2004年度新入生を対象とした、「新入生アンケート調査」である。質問数は選択方式11問、自由回答方式5問の計16問。サンプルの総数は2187件であった。このデータの自由回答文を対象にクラスタ分析を行い,構成する単語の並びだけでなく,回答内容が類似した回答文のクラスタが生成されることを確認した。 テキストマイニングツールを開発している主な企業としては,富士通(株),日立製作所,日本アイ・ビー・エム,日本電子計算などがあった。本研究では,文部科学省統計数理研究所の大隅昇教授と日本電子計算(株)が産学協同開発した「Word Miner」を入手し,解析結果の比較実験を行った。その結果全般的には同じようなクラスタが生成されたが,本システムの利点として,構成する単語の並びだけでなく,回答内容が類似した回答文を含むクラスタが生成できることを確認した。しかし本システムを実際のデータを解析するツールとして考えたとき,扱えるデータ数が少なく,使い勝手も良くないなど市販のツールには及ばない点も数多く見つけることができた。これらの点は今後の課題として改善に取り組んで行きたいと考えている。
|