2017 Fiscal Year Research-status Report
自然言語処理を適用した調査現場における自由回答収集支援システムの開発
Project/Area Number |
16K04039
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 社会調査 / 自由回答 / CAI / 機械学習 / 不足情報収集システム / 自然言語処理 / ルールベース手法 / 職業自動コーディング |
Outline of Annual Research Achievements |
社会調査で収集された自由回答データに対してコーダが「容易」かつ「正確」にアフターコーディングを行うには、分類に必要な情報が回答に含まれている必要がある。本研究では、CAI(Computer Assisted Interview)調査を想定し、調査員が調査現場にタブレット型PCを持参し、回答が得られた段階で情報不足であるか否かを判定し、情報不足の場合は、その場で回答者から追加情報を収集するシステムの開発を行う。 開発は、「職業コーディング」を例として、[課題1]システム開発のための準備(シソーラスとルール辞書の充実)[課題2]システムの設計と開発(平成25~27年度科研費で開発済みの「職業コーディング自動化システム」のアルゴリズムを一部利用)[課題3]システムの評価と自由回答一般への拡張の順に行う予定で、[課題1]は昨年度ほぼ終了した。今年度は[課題2]の研究を行った。その結果、アルゴリズム(下記)を完成し、東大社研パネルデータ(第一波)に適用した実験を行って、システムの有効性を確認したが、実装までには至らなかった。 [STEP0 データ入力]調査員が回答者から収集した回答をコンピュータに入力する。[STEP1 自動コーディング]回答に対して自動コーディングを行い、コードと確信度(5レベル)を付与する。[STEP2 情報不足の判定]STEP1の結果が判定条件a(もっとも低いレベルの確信度が付与された場合)または判定条件b(システムが指定するコードに中程度レベルの確信度が付与された場合)に該当する場合はSTEP3に進み、該当しない場合は終了する。[STEP3 追加情報の提示と収集]追加情報の候補を提示し、回答者により選択された情報を最初の回答に追加してSTEP1に戻る。 次年度の課題として、[STEP3]の追加情報の提示でより有効な方法を検討し提案した後、実装を完成させることである。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画では、平成29年度中に上記[課題2]を達成する予定であったが、前述したように、設計(アルゴリズム)はほぼ完成したものの、実装に至らなかった。このため、国際会議への投稿も予定していたが、そのレベルに値する内容まで研究を進めることができていないと判断し、次年度への課題とした。 予定が遅れた理由は、自動コーディング部分のアルゴリズムとして、当初はルールベース手法を適用する手法を想定していたが、検討した結果、機械学習を適用する手法(職業コーディングに限定すれば、ルールベース手法と機械学習を組み合わせた手法)に変更したためである。 アルゴリズムを変更した理由は、ルールベース手法による判定は人間に理解されやすい点では優れているが、汎用性を考慮した場合に、個々のタスクに対して各々ルールベース手法によるシステム開発を行う必要があり、手間がかかることと、メンテナンスに労力を要するという欠点があるのに対し、機械学習による場合は、正解付きの訓練事例(分類先が明らかになった事例)の蓄積が必要であるという欠点はあるが、システムの開発が容易で、メンテナンスも訓練事例の増強のみでよいという長所を重視したためである。 機械学習への変更により、前回科研費で提案したシステムによる予測コードに対する「確信度」がより重要となるため、新たに確信度の最下位レベルを3段階に増やし、計5レベルとしたが、各レベル(特に下位の3レベル)を適切に設定するための実験を要したことも遅れの原因となった。
|
Strategy for Future Research Activity |
最終年度でもある平成30年度は、次の2つの課題についての研究を推進する。 1[課題2]4月~6月:[STEP3]の追加情報について、現在提案中の提示方法より有効な方法を検討する。6月~9月:この方法も含めて実装を完成させる。 2[課題3]10月~11月:(1)実際のデータを用いてシステムを稼働させ、システムの利用者(回答者・調査員・コーダ)による評価を行う。12月~1月:言語処理学会と数理社会学会で成果発表を行うため、それぞれ論文執筆と報告要旨の作成を行う。2月~3月:平成31年度に発表を予定する国際会議を選定し、投稿用論文(英文)を執筆する。
|
Causes of Carryover |
次年度使用額が生じた理由:計画遂行の遅れに伴い、以下の3費目(「物品費」「旅費」「人件費・謝金」)の使用額がいずれも当初の予定より少なくなった。 「物品費」実装のためのタブレット型PCの購入ができなかった。「旅費」国際会議に投稿が可能なレベルの論文を作成できなかったため海外での発表が行えなかった。「人件費・謝金」実装に関わるプログラム作成の依頼ができなかった。 使用計画:次年度の研究推進に伴い、上記3費目を使用する予定である。
|