研究課題/領域番号 |
22530516
|
研究機関 | 敬愛大学 |
研究代表者 |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
研究分担者 |
田辺 俊介 東京大学, 社会科学研究所, 准教授 (30451876)
吉田 崇 静岡大学, 人文社会科学部, 准教授 (80455774)
|
研究期間 (年度) |
2010-04-01 – 2013-03-31
|
キーワード | 社会調査 / 自由回答 / 自動コーディング / SSM職業コーディング / ISCO自動コーディング / Webシステム / 機械学習 / 確信度 |
研究概要 |
本研究の目的は、「職業・産業コーディング自動化システム」に機械学習の最新の成果を取り入れ、Web上で利用できるように改変および新規開発を行って公開することである。当該年度の成果は以下の通りである。 (1)国内標準の職業・産業コードおよび国際標準の職業コードのWeb版自動コーディングシステムの構築 ①国内標準の職業コードであるSSM職業コードは、すでに開発済みの「ルールベース手法と機械学習を統合したシステム」(ルールベース手法による出力結果を機械学習(サポートベクターマシン;SVM)の素性に追加)をWeb版として改変した。②国内標準の産業コードであるSSM産業コードは、すでに開発済みの「ルールベース手法によるシステム」をWeb版として改変した。③国際標準の職業コードであるISCO(International Standard Classification of Occupations)は、ルールベース手法を新たに開発することはせずに、SVMにより予測されたSSM職業コードをSVMの素性に追加する「機械学習によるシステム」をWeb版として新たに開発した。SSM職業コードを利用するためには、①で述べたルールベース手法を用いた。 (2)機械学習を用いたSSM職業コードおよびISCOに対する3段階の確信度付与 機械学習であるSVMにおいては、コードを予測する際に分離平面からのスコアも出力する。人間の作業のさらなる軽減化のため、このスコアを利用して、第1位に予測されたコードに対する確信度を次の3段階(A:「人間の見直し不要」B:「できれば人間の見直し必要」C:「人間の見直し必要」)で付与した。実験の結果、両コードとも、A:約95%、B:約70%、C:約30%の正解率を示した。もっとも有用なAにおけるカバー率は、SSM職業コードでは約30%であったが、ISCOでは約7%であった。
|
現在までの達成度 (区分) |
理由
24年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
24年度が最終年度であるため、記入しない。
|