(1)システムの主要部分「追加情報の収集のための有効情報提示方法」に関するアルゴリズムをほぼ完成した。 昨年度は、自動コーディングが予測した分類コードに対するシステムの確信度が最も低い「E」レベルであれば「情報不足」と判断することおよび、予測した分類コードに関係なく、つねに「大分類レベルのコード名(語)」(15種類)を提示する方法を提案したが(日本分類学会論文誌『データ分析の理論と応用Vol.7、No.1』pp.21-42.2018)、今年度は、さらにきめ細かな対応として、これまで蓄積したデータにおける自動コーディング結果の正解/不正解の状況に基づき、予測した小分類コード別に正解の可能性が高い「小分類レベルのコード名(語)」(約300種類)を提示する方法を4つ提案した。提案手法を、それぞれ性質の異なる2つのデータセット(訓練事例と同じ性質のJGSS-2008データセットと性質の異なる東大社研パネル調査第1波データセット)を用いて実験した結果、いずれの手法も両データセットで有効性を示した。現在、さらに精度を向上させるために、手法を組み合わせた方法を実験中である。 (2)システムは、調査現場でタブレットに入力したデータをオンライン送信すれば、自動コーディングの結果と確信度を返すとともに、データが情報不足であると判断すれば、有用な情報をタブレットに提示し、回答者に追加してもらう。したがって、誰もが自由に利用できる用にするため、実装後のシステムをクラウドサーバに置くことを検討し、この環境整備に着手した。 なお、システムを構築した大きな目的は、自由回答をアフターコーディングする際、コーダが有用な情報を充分に利用できることで作業負担を軽減すること、およびコーディングの正確さを高めることであった。今後の課題として、次年度は、これが達成できたか否かについてコーダによる評価を実施予定である。
|