2003 Fiscal Year Annual Research Report
質的研究によって収集したインタビュー記録等のテキストデータの定量的解析法の検討
Project/Area Number |
15659505
|
Research Institution | University of Tsukuba |
Principal Investigator |
西川 浩昭 筑波大学, 社会医学系, 助教授 (30208160)
|
Co-Investigator(Kenkyū-buntansha) |
城川 美佳 東邦大学, 医学部, 助手 (10177785)
|
Keywords | テキストデータ / 分かち書き処理 / 対応分析 / 出現頻度 |
Research Abstract |
本研究の目的は、テキストの形式で得られたデータを分かち書き処理により、キーワードに分解し、そのキーワードの使用の有無という情報からキーワード同士の類似、非類似の関係を明らかにして、定量的に解析する方法を提起することである。その目的達成のため、今年度は分析処理の準備段階として分かち書き法の確立を目標とした。 分かち書き処理を行うためには、敢えて長いテキストは必要ないので、原稿用紙1〜2枚の比較的短い文章を処理の対象とした。データは研究の趣旨を説明した上で、協力に応じることを承諾した学生から収集した。後の処理のことも考慮し、こちらからテーマを指定し、原稿用紙2枚以内という制限をして、文章を作成してもらった。なお、個人の特定を不可能にするため、無記名とし、個人情報としては性別と年齢のみ記載を依頼した。79名の学生から協力が得られた。 79名の対象者で6,414種類の単語を用いていた。このうち、英単語、数詞、助詞等を除き、単語としてそれだけで意味を有しているもの(以下キーワード)のみを数え上げたところ1,227種類であった。分析で扱うキーワード数として、1,000を超えるのは多すぎるので、出現頻度の下限を設定し、分析で用いるキーワードを絞ることが必要であることが判明した。また、同時に類義語、同義語を統一して一つのキーワードにすることも必要であることが判った。類義語、同義語の併合は研究者が個々に判断して手作業で行う他はないが、キーワードの上限設定については、何らかの基準を作成する必要がある。そのために、こうしたデータを分析する方法のひとつである対応分析を試みた。なお、分析方法の検討は来年度の検討課題の中心である。その結果、このデータの場合には、分析的な面から考慮すると,キーワード数として300程度がふさわしいことが判明した。これは出現頻度の15〜16に相当し、対象数の約5分の1に相当する。これらの仮説のうち、どの基準が正しいか否かは来年度に検討する。
|