2013 Fiscal Year Research-status Report
社会調査の基盤を提供する自動コーディングシステムのWeb提供:その国際化と汎用化
Project/Area Number |
25380640
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
Co-Investigator(Kenkyū-buntansha) |
多喜 弘文 東京大学, 社会科学研究所, 助教 (20634033)
田辺 俊介 早稲田大学, 文学学術院, 准教授 (30451876)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 社会調査 / 自由回答 / コーディング自動化システム / 職業/産業コーディング / ISCO/ISIC / 機械学習 / 確信度 / Web利用システム |
Research Abstract |
社会調査において自由回答で収集された職業や産業の情報を統計的に処理するには、あらかじめ決められた職業や産業コードに変換する作業(職業・産業コーディング)が必要であるが、データが大量にある場合はコーダの負担が大きく、長期間を要するという問題がある。また最近は、1つのデータに国内標準コードだけでなく国際標準コードの付与も要請されるようになり、コンピュータによるコーディング自動化システムへの期待が高まっている。本研究では、これまで開発した種々の自動化システムを整理・統合するとともに、コーダ支援のためにさらなる機能の充実と性能の向上をはかることおよび、一般の研究者も容易に利用できるよう、Webを通じて一般に公開することを目的とする。 今年度の成果は、次の機能を有するシステムを構築したことおよび東京大学社会科学研究所附属社会調査・データアーカイブ研究センター(SSJDA)のWebサイトより試行提供が開始されたこと(11月より)である。 (1)国内標準コード(SSM職業小分類・産業大分類)およびILOが定める国際標準コード(ISCO・ISIC)を付与(利用者は最大4種類まで自由に選択できる) (2)上記4種類のコード化のすべてに機械学習を適用し、システムが第1位の候補として提示するコードに対して、3段階の確信度(「A:確信度高い(95%以上)、B:確信度中程度(70%程度)、C:確信度低い(40%程度)」)のいずれかを付与 (3)過去の調査等ですでに国内標準コードが付与されているデータに対して、国際標準コードを付与(例えば、SSM職業小分類が付与されたデータにISCOを付与) 本システムはユーザインタフェースを重視しており、システム運用者は操作画面上で、利用者がWebサイトを通じてアップロードしたファイルを指定し、申請書で希望があったコードのチェック・ボックスをクリックするだけでよい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画では、平成25年度中に、上記「研究実績の概要」で述べた(1)(2)に加えて、「システムの更新作業を容易化」する機能も追加予定であったが、本機能は当該年度後半に取り組みを始めたものの、年度内には完成できなかった。この点では、達成度は「やや遅れている」ことになるが、本機能は平成26年度前半に完成見込みであることや、利用者にとってより便利な機能として、当初は予定していなかった「研究実績の概要」で述べた(3)の機能を追加したことや、試行提供ではあるが、SSJDAのWebサイトを通じて、利用者が入力ファイルをアップロードすれば、結果ファイルを容易にダウンロードできるシステムとして、平成25年11月から一般公開が開始され、利用実績も数件ほどあることは評価できる。さらに、本システムでは、「研究実績の概要」でも述べたように、システム運用者がコンピュータ操作に熟練していない場合を想定して、ユーザインタフェースに充分な配慮が実現できており、これらを総合的に判断した結果、「おおむね順調に進展している」と評価した。
|
Strategy for Future Research Activity |
平成26年度は、次の3つに関する研究を推進する。 (1)引き続き「システムの更新作業を容易化」するため、機械学習に必要な訓練事例(4種類)を増強する処理の自動化に取り組み、年度前半に完成させる。年度後半は、最近の自由回答に出現する用語にも対応できるように、ルールベース手法で用いる「述語シソーラス」と「名詞シソーラス」および「ルール辞書」のメンテナンスを人手で行い、既存のものと置き替える。 (2)本システムでは、現在実施されている社会調査で一般的に用いられているコードへの変換(国内標準コードは1995年と2005年SSM調査で利用されたコード、国際標準コードは1988年版)を行う。しかし、例えば、2015年SSM調査では新たなコードが利用される予定もあるように、今後は、新規コードの利用が進むことが予想される。したがって、この動向に対応する必要があると考えられ、汎用性を考慮しながらどのような方策をとるべきかについて、共同研究者と検討を行って結論を出す。 (3)当初の計画にはなかったが、システムの評価を正解率やカバー率だけでなく、実際に分析を行う研究者(共同研究者)の立場から行う方法を検討していく。 平成27年度は、上記(2)の結果をWebシステムに組み込むことおよび本システムで得られた知見に基づき、コーディング自動化システムの処理対象を、職業や産業のデータ以外にも拡張することを予定している。ここでの課題は、拡張システムにおいても機械学習の適用を想定しているが、そのための訓練事例をいかに効率よく収集できるかということで、平成26年度中に共同研究者と充分検討をしておく必要がある。
|
Expenditure Plans for the Next FY Research Funding |
平成25年度中に、これまでの成果を海外の関連学会で発表する予定で、参加登録料や旅費等を予算として計上していたが、英文の投稿論文が仕上がらず、申し込みができなかったために残額が生じてしまった。 平成26年度中には、1年遅れた分、内容を充実させて海外の関連学会に投稿する予定であり、残額はこのための参加登録料や旅費として支出する計画である。 目標とする学会でもし受理されなかった場合には、さらに内容を充実させたものを平成27年度中に投稿する予定であり、そこでの参加登録料や旅費とする計画である。
|
Research Products
(4 results)