本研究では、近年、コンピュータを用いた自然言語処理技術の進歩により活用され始めたテキストマイニングを導入することで、2004年に行った「生体肝移植ドナーに関する調査」の自由回答への記述から収集されたテキストデータの分析を行うことを目的とした。 分析にはTrue Teller(野村総研:以下TT)とSPSS Text Analysis for Surveys(IBM:以下STAfS)の双方を用い、単語の出現頻度や共起性を中心に分析を実施し、データの解析と共にソフトウェアの特徴や分析上の限界についても明らかにすることとした。 今回、生体肝移植ドナーが抱える健康不安について分析を行ったところ、「漠然」「将来」「不安」「現在」「ない」といった用語が、高頻度かつ同時に用いられており、現在は無症候でも漠然と将来への不安を感じていたが、「体力」や「疲労感」、「腸」と「閉塞」などは、それらとは別のグループを構成していると考えられたため、具体的な不安を感じている者がいることも分かった。その一方で「閉塞」と「閉そく」は別の語として認識されるため、非医療専門職を対象とした調査データを用いる場合、同義語としての登録など辞書機能の管理が分析結果に影響を及ぼし重要であることも明らかになった。 また双方のソフトウェアとも、分析上、最も時間を有するのは分析用の辞書(類義語等)の作成であり、分析結果について大きな相違は見られなかった。TTは、データのインポートから出力までが一体化されており、図表の作成等の操作性に優れているが、STAfSはIBM SPSS Statisticsで利用できる形態にデータを加工するツールであり、その後の分析はどのような統計手法も研究者側で選択できるため、自由度が高いと考えられた。 テキストマイニングは、大量のテキストデータから判別しづらい単語の頻度や関係性を客観的な手続きを用いて視覚的に把握することができ、今後の自由回答などの分析に用いる意義があると考えられた。
|