2014 Fiscal Year Research-status Report
社会調査の基盤を提供する自動コーディングシステムのWeb提供:その国際化と汎用化
Project/Area Number |
25380640
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
Co-Investigator(Kenkyū-buntansha) |
多喜 弘文 法政大学, 社会学部, 講師 (20634033)
田辺 俊介 早稲田大学, 文学学術院, 准教授 (30451876)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 社会調査 / 自由回答 / コーディング自動化システム / 職業/産業コーディング / ISCO/ISIC / 機械学習 / 確信度 / Web利用システム |
Outline of Annual Research Achievements |
社会調査において自由回答を統計的に処理するためには、分析前にコード化しておく必要があるため、サンプル数が多い場合はコーディング作業の負担が膨大となる。このため、特に自由回答で収集されることが多い職業・産業データに対しては、コンピュータによる自動化システムを種々開発してきた。本研究の目的は、これらのシステムを整理・統合し、性能を向上させ、コーダに対するさらなる支援と昨今の研究環境の国際化に対応する機能を追加することである。また、本システムを一般の研究者が容易に利用できるよう、Webを通じて公開することも大きな目的である。 昨年度は、システムの統合・整理を行い、次の3つの機能を追加した。(1)国内標準コード(SSM職業小分類・産業大分類)に加え、ILOが定める国際標準コード(ISCO・ISIC)も付与(利用者は自由に選択可能)(2)利用者の目安となるように、システムが第1位候補として提示したコードに、3段階の確信度(「A:高い、B:中程度、C:低い」)を付与(3)過去の調査等ですでに国内標準コードが付与されたデータに国際標準コードを付与(例えば、SSM職業小分類が付与されたデータにISCOを付与)。このシステムは、昨年度11月以降、東京大学社会科学研究所附属社会調査・データアーカイブ研究センター(SSJDA)のWebサイトより試行提供されるに至った。 今年度の主な成果は次の2つである。(1)システムの永続性を考慮し、更新処理(具体的には、機械学習における訓練事例の増強)の自動化機能を追加。システムの精度向上には、訓練事例サイズの増大がもっとも効果的であるが、この作業はかなり面倒なため、これまで開発者により手動で行われていた。しかし、(1)により、正解付きの事例を入力ファイルと同様の形式で準備すれば、誰もが容易に更新できるようになった。(2)昨年度までの開発版の不具合点を改良。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画で昨年度中に予定していて達成できなかったものとして、「システムの更新作業を容易化」機能があったが、今年度達成できた(「研究実績の概要 今年度の成果(1)」)。反対に、当初の予定にはなかったが、利用者にとって利便性の高い機能として、「過去の調査等ですでに国内標準コードが付与されたデータに国際標準コードを付与(例えば、SSM職業小分類が付与されたデータにISCO付与)」機能が、昨年度追加できた。 また、Webを通じたシステム公開についても、利用者は入力ファイルをSSJDAのWebサイトにアップロードすれば、結果ファイルを容易にダウンロードできること、SSJDA側も、運用者がコンピュータ操作に熟練していない場合でも容易に実行できるユーザインタフェイスにしたこと、最近、利用申請の実績が出始めたという状況にある。 さらに、昨年度、今年度の計画としていた3つ、すなわち(1)最近の自由回答に出現する用語にも対応できるように、ルールベース手法で用いる「述語シソーラス」「名詞シソーラス」および「ルール辞書」を更新(2)本システムで用いるコード(国内標準コードは95年版SSMコード、国際標準コードは1988年版)を新しいコードに変換する機能の追加についての結論(3)システムの評価を正解率やカバー率だけでなく、実際に分析を行う研究者の立場から行う方法検討についても、(1)が8割程度の完成度で次年度に継続となったこと以外は達成できた。 以上を総合的に判断した結果、「おおむね順調に進展している」と評価した。
|
Strategy for Future Research Activity |
次年度は科研費最終年度となるため、現在の研究内容を継続しつつ、システムを最終的にまとめる必要がある。次の事項を計画している。 (1)今年度中の完成予定であったが実現できなかったもの、すなわち「ルールベース手法で用いる「述語シソーラス」や「名詞シソーラス」および「ルール辞書」の更新」を完成させ、精度の向上を目指す。 (2)精度向上のためには、機械学習の訓練事例や評価事例を生成するための「素性辞書」の更新(新語への対応)も有効であるため、この自動化機能も追加する。 (3)今年度の検討結果を受け、システムの評価を実際の分析者である社会学研究者により行ってもらう。具体的には、東大社研パネル調査のデータを用いて、本システムの結果をそのまま分析に用いた場合に、どの程度厳密な分析が可能であるかについて共同研究者が評価する。また、(4)本システムで用いられているコードを、国内・国際標準コードともに新規コードに変換する機能を追加する。 (5)本システムのまとめとして、SSJDA側のシステム運用者のために、システムの自動更新機能まで含めた機能について、内容と使い方を丁寧に解説したマニュアルを作成する。また、(6)SSJDAで現在稼働している版(Ver.4.4)はシステムの更新処理機能が含まれていないため、次年度末には完成版のインストールを行う。 現時点の課題としては、本システムの開発により得られた知見に基づいて、コーディング自動化システムの対象を職業・産業データ以外に拡張予定であるが、適当な応用分野が見つかっていないことである。次年度も共同研究者2名との検討を継続する。
|
Research Products
(5 results)