2018 Fiscal Year Research-status Report
自然言語処理を適用した調査現場における自由回答収集支援システムの開発
Project/Area Number |
16K04039
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 社会調査 / 自由回答 / CAI調査 / 機械学習 / 自然言語処理 / 不足情報収集システム / 職業自動コーディング |
Outline of Annual Research Achievements |
本研究では、コンピュータ支援(CAI)調査を想定し、調査員が調査現場に持参したタブレット(当初はタブレット型PCの予定を変更)に回答者から収集した自由回答を入力してサーバーに送信すれば、サーバーに置いたシステム(当初はタブレット型PCに搭載予定を変更)が、機械学習により回答に分類に必要な情報が不足しているか否かを直ちに判定し、情報不足の場合はその場で回答者から有効な情報を追加収集して自動的にコーディングするシステムを構築する。現在、社会学で必須かつ自由回答コーディングの代表である職業コーディング*1を対象にシステムを構築中である。 本研究の意義は、調査現場で十分な情報を得ることで、コーダの労力や作業時間の軽減、コーダとコーダを支援する自動コーディングシステムの正解率向上、調査現場でコーディング結果が得られることである。 今年度は、昨年度考案した[課題2 システムの設計と実装]のアルゴリズム*2をより精緻化し、実際のデータセットを用いた実験を行って有効性を示した(研究発表を参照)。ただし、[課題2]の実装が完成に至らず、[課題3 システムの評価と自由回答一般への拡張]も行えなかったため、次年度の課題とした。 職業コーディング*1:「仕事の内容」「従業先事業の種類」(以上は自由回答)と「従業上の地位・役職」「従業先事業の規模」(以上は選択回答)で収集される職業データに職業コードを付与する作業。 アルゴリズム*2:[STEP0]データ入力[STEP1]自動コーディング:回答に対して自動コーディングを行い、分類コードを確信度付きで出力[STEP2]情報不足の判定:STEP1で低レベルの確信度が付与された場合を情報不足であると判断してSTEP3に進み、それ以外の場合は終了[STEP3]追加情報の提示と収集:追加情報の候補を提示し、回答者に選択された情報を最初の回答に追加してSTEP1に戻る。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
平成29年度終了時に次年度の課題とした上記[課題2]の実装が完成せず、[課題3]の評価およびシステムの一般化も達成できなかった。 遅れの理由は、今年度、「やや遅れている」(昨年度の達成度)からのスタートであったことに加え、次の2つの設計変更に予想以上の手間を要したため、遅れの度合いが増した。 変更1 情報処理方法の変更:(1)で述べたように、当初は調査現場に持参したタブレット型PCにシステムを搭載して処理を行う予定であったが、「タブレットを持参し、タブレットからシステムを搭載したサーバーに回答情報を送信し、サーバーで処理された結果を受信する方法」に変更した。情報処理をサーバーに変更した理由は、昨年度、自動コーディングの方法を、ルールベース手法から機械学習(サポートベクターマシン;SVM)に変更することにしたが、SVMをタブレット型PCで実行するのは長時間を要し、回答者や調査員の負担が大きく、また費用の点でも問題となるためである。この変更により、PCを持参する必要がなくなったため、持ち運びが楽で操作しやすく、より安価なタブレットの利用が可能となった。 変更2 アルゴリズムの詳細部分変更:アルゴリズムを詳細化する過程においてさまざまなアイディアが浮かび、それぞれについて実際のデータセットを用いた実験を行いながら有効性を確認したため、予想以上の作業時間を要した。 以上の遅れを取り戻すために研究期間の1年間延長を申請し、承認されたため、次年度(平成31年度)は残された課題を完了する予定である。
|
Strategy for Future Research Activity |
最終年度である平成31年度は、次の2つの課題についての研究を推進する。 1[課題2]8月末までに実装を終え、数理社会学会第68回大会(9月)で成果発表を行う。その際、[課題3]システムの評価のうち、コーダによる評価を行ってくれる人を募集する。 2[課題3]10月~11月:(1)システムの利用者であるコーダによる評価を行う。評価方法は、コーダを当初回答だけと追加情報付き回答の2グループに分け、両者のコーディング結果(正解率、所用時間、コメント等)を比較する。 12月~1月:コーダの評価を分析した結果も含め、研究成果を言語処理学会第26回年次大会(3月)で発表するための投稿用論文を執筆する。 2月~3月:構築システムの一般化に向けて検討を行う。 3月:今回科研費の研究実績をまとめる。
|
Causes of Carryover |
次年度使用額が生じた理由:前述したような計画内容の変更および遂行の遅れに伴い、今年度は「旅費」と「人件費・謝金」の使用額が予定より少なくなったためであり、この理由を以下で具体的に述べる。 「旅費」については、国際会議に投稿することができる内容の論文を作成できず、海外での発表を行わなかったためである。「人件費・謝金」については、まず、「オンラインによる自動コーディング」部分の実装に向けたプログラム作成を、当初予定していた研究協力者ではなく業者に依頼したため、本費目ではなく「物品費」として計上することとなったためである。なお、「物品費」が、実装用タブレット型PC(2台)の購入が不要となったにもかかわらず予定より多くなったのは、前述の実装プログラムを業者に発注・納品したため、本費目として計上したためである。 次年度の使用計画:最終年度となる次年度は、今年度実装した機能に「追加情報収集機能」を追加するが、この部分の実装プログラムを新たに業者に発注・納品予定である(「物品費」)。また、「旅費」として、学会発表を行うために使用予定である。
|
Research Products
(3 results)