自然言語処理によるフリーアンサーの自動解析法の開発と評価

Research Project

Project/Area Number	06301102
Research Category	Grant-in-Aid for Co-operative Research (A)
Allocation Type	Single-year Grants
Research Field	社会システム工学
Research Institution	Japan College of Social Work
Principal Investigator	坂野達郎日本社会事業大学, 社会福祉学部, 助教授 (40196077)
Co-Investigator(Kenkyū-buntansha)	渥美雅保創価大学, 工学部情報システム学科, 助教授 (00192980)
Project Period (FY)	1994 – 1995
Project Status	Completed (Fiscal Year 1994)
Budget Amount *help	¥3,000,000 (Direct Cost: ¥3,000,000) Fiscal Year 1994: ¥3,000,000 (Direct Cost: ¥3,000,000)
Keywords	統計分析 / フリーアンサー / 捜査支援コンピュータシステム / 自然言語処理 / 自動分析
Research Abstract	社会科学及び行動科学の研究において、アンケート調査のフリーアンサ一分析は体系的な分析方法が確立されていない。本研究では、フリーアンサーの自動解析法の開発を最終目標に起き、その第一段階として、フリーアンサーに記載された情報の自動カテゴリー化を支援するシステムの開発を行なった。まず、自然言語に関するいっさいの知識を用いずに、単語を構成する要素から形式的類似性を計算するアルゴリズムを作成し、そのアルゴリズム実現のソフトを開発した.形式的類似性は、以下のように定義した。すなわち、m種類の記号から作り出される長さがnの記号列は、理論的にはm^n個ある。したがって、ある調査から得られたテキストを構成するすべての長さnの記号列を調べ、その種類の数をPとすると、P≦m^nとなる.また、長さn以下の記号列すべての種類も有限でその数をP^とするとP^≦Σm^nとなる。このようにして得られた記号列の集合を、{P_j}とする。任意のテキストAとB類似性は、次のように定義した。テキストAを構成する長さn以下の記号列をすべて調べ、記号列P_jの出現した頻度をa_j、a_<j2>から作られるP^次元のベクトルをv_aとする。同様にして、テキストBを構成する長さn以下の記号列をすべて調べ、記号列P_jの出現した頻度をb_j、b_jから作られるP^次元のベクトルをv_bとする。このとき、類似度r_<ab>=(v_a、v_b)/IIv_<2a>ll・llv_bllただし、(v_a、v_b)は、内積、llv_allはノルムとする。次に、調査から得られたテキストすべてについて、相互の類似度を計算し、これを元にクラスター分析を行う。そして、クラスター分析の結果をもとに、調査分析者がカテゴリーの検討を行い、各カテゴリーごとのネ-ミングを行う。この方法により、言語個有の文法規則、および分野固有の意味関係に関する既存の知識を前提とせずに、大量のテキストデータを自動的に処理し、類似性に基づきカテゴリー化の支援をすることができる。この方法を、2つのことなる分野(「地域福祉に関する調査」と「計画効果の測定指標に関する捜査」)の調査データに適用した。その結果、フリーアンサー部分で挙げられた新規施策の分類、および計画評価の視点としてあげられた自由回答の分類に実用性があることが確認された。

Report

(1 results)

1994 Annual Research Report