自然言語処理によるフリーアンサーの自動解析法の開発と評価

研究課題

研究課題/領域番号	06301102
研究種目	総合研究(A)
配分区分	補助金
研究分野	社会システム工学
研究機関	日本社会事業大学
研究代表者	坂野達郎日本社会事業大学, 社会福祉学部, 助教授 (40196077)
研究分担者	渥美雅保創価大学, 工学部情報システム学科, 助教授 (00192980)
研究期間 (年度)	1994 – 1995
研究課題ステータス	完了 (1994年度)
配分額 *注記	3,000千円 (直接経費: 3,000千円) 1994年度: 3,000千円 (直接経費: 3,000千円)
キーワード	統計分析 / フリーアンサー / 捜査支援コンピュータシステム / 自然言語処理 / 自動分析
研究概要	社会科学及び行動科学の研究において、アンケート調査のフリーアンサ一分析は体系的な分析方法が確立されていない。本研究では、フリーアンサーの自動解析法の開発を最終目標に起き、その第一段階として、フリーアンサーに記載された情報の自動カテゴリー化を支援するシステムの開発を行なった。まず、自然言語に関するいっさいの知識を用いずに、単語を構成する要素から形式的類似性を計算するアルゴリズムを作成し、そのアルゴリズム実現のソフトを開発した.形式的類似性は、以下のように定義した。すなわち、m種類の記号から作り出される長さがnの記号列は、理論的にはm^n個ある。したがって、ある調査から得られたテキストを構成するすべての長さnの記号列を調べ、その種類の数をPとすると、P≦m^nとなる.また、長さn以下の記号列すべての種類も有限でその数をP^とするとP^≦Σm^nとなる。このようにして得られた記号列の集合を、{P_j}とする。任意のテキストAとB類似性は、次のように定義した。テキストAを構成する長さn以下の記号列をすべて調べ、記号列P_jの出現した頻度をa_j、a_<j2>から作られるP^次元のベクトルをv_aとする。同様にして、テキストBを構成する長さn以下の記号列をすべて調べ、記号列P_jの出現した頻度をb_j、b_jから作られるP^次元のベクトルをv_bとする。このとき、類似度r_<ab>=(v_a、v_b)/IIv_<2a>ll・llv_bllただし、(v_a、v_b)は、内積、llv_allはノルムとする。次に、調査から得られたテキストすべてについて、相互の類似度を計算し、これを元にクラスター分析を行う。そして、クラスター分析の結果をもとに、調査分析者がカテゴリーの検討を行い、各カテゴリーごとのネ-ミングを行う。この方法により、言語個有の文法規則、および分野固有の意味関係に関する既存の知識を前提とせずに、大量のテキストデータを自動的に処理し、類似性に基づきカテゴリー化の支援をすることができる。この方法を、2つのことなる分野(「地域福祉に関する調査」と「計画効果の測定指標に関する捜査」)の調査データに適用した。その結果、フリーアンサー部分で挙げられた新規施策の分類、および計画評価の視点としてあげられた自由回答の分類に実用性があることが確認された。

報告書

(1件)

1994 実績報告書