研究課題/領域番号 |
22530516
|
研究機関 | 敬愛大学 |
研究代表者 |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
研究分担者 |
田辺 俊介 東京大学, 社会科学研究所, 准教授 (30451876)
吉田 崇 東京大学, 社会科学研究所, 助教 (80455774)
|
キーワード | 社会調査 / 自由回答 / 自動コーディング / SSM職業コーディング / ISCOコーディング / Webシステム / 機械学習 / ルールベース手法 |
研究概要 |
本研究の目的は、「職業コーディング支援システム」について、機械学習の最新の成果を取り入れた新たな自動コーディングシステムを開発し、Web上で公開することであり、この実現に向けた当該年度の成果は以下の通りである。 (1)(分類精度を高めるための)新システム開発 サポートベクターマシン(SVM)における有効なアンサンブル学習として、複数の分類器における予測クラスの所属確率を推定して比較し、最大の値をもつ分類器の予測クラスを最終予測クラスとする方法を提案したが(H22年度)、実験を重ね、提案手法の有効性と性質を詳細に調査できた(研究発表「多クラスSVMにおけるクラス所属確率を用いたアンサンブル学習の提案」)。その結果、有効性は示されたが、処理時間がかかることがわかった。 (2)システムのWeb公開 (1)H22年度にWeb公開用に改変した「ルールベース手法によるシステム」に続き、システム構成がルールベース手法より複雑な「機械学習によるシステム」の改変を行った(研究発表「職業・産業自動コーディングシスムのWeb公開に向けて-機械学習による手法」)。(2)さらに、「ルールベース手法と機械学習を統合したシステム」についても改変を行った。(3)H22年度のシステム改変により「SSM産業コード」、上記(2)により「SSM職業コード」、さらに、上記(2)の応用により「ISC0」(International Standard Classification of Occupations)および「ISIC」(International Standard Industrial Classification of all Economic Activities)の自動コーディングシステムの公開を実現できる見通しがついたため、東大側オペレータの操作画面の設計を行い、ユーザの利用手順について詳細化した(研究発表「社会調査における職業・産業コーディング自動化システムのWeb公開」)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「研究実績の概要」で述べたように、研究の目的を実現するために当該年度に計画した実施内容のうち、Web公開のためのシステム改変は順調に進んでいるが、Web公開の実現まで至らなかった点では、達成度を「やや遅れている」とするべきであるが、当該年度「ルールベース手法によるシステム」 のみを公開予定で、「ルールベース手法と機械学習を統合したシステム」は次年度に公開としていた計画を、次年度に両者を統一して公開する見通しがついているために、「おおむね順調に進展している」 と判断した。
|
今後の研究の推進方策 |
(1)(分類精度を高めるための)新システム開発について、提案手法の新規性、有効性は認められるものの、複雑であることや処理時間の点で今回のシステムに適用するのは現実的ではないと判断したため、方針を変更し、未使用の正解コード付きサンプルを利用して機械学習の訓練事例の増強をはかることで分類精度を高める方策をとることにする。 (2)システムのWeb公開について、まず、「SSM職業・産業コード」の2種類、次に、「ISCO」「ISIC」の2種類について自動コーディングシステムのWeb公開を実現する。公開にあたっては、技術面だけでなく、公開ページの作成や利用上の注意点などについての議論も必要である。さらに、「SSM職業コード」「ISCO」「ISIC」については、自動分類結果の確信度も付与するシステムを構築し、当初に公開したシステムとの入れ替えを行う。
|