2016 Fiscal Year Research-status Report
自然言語処理を適用した調査現場における自由回答収集支援システムの開発
Project/Area Number |
16K04039
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 教授 (30211337)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 社会調査 / 自由回答 / CAI調査 / 不足情報収集システム / 自然言語処理 / ルールベース手法 / 機械学習 / 職業コーディング自動化 |
Outline of Annual Research Achievements |
社会調査において自由回答で収集されたデータを統計的に処理するにはアフターコーディングが必須であるが、コーダが「容易」かつ「正確」にコーディングを行うためには、必要な情報が回答に含まれている必要がある。本研究では、CAI(Computer Assisted Interview)調査を想定し、不足する情報を調査現場で判断して回答者から収集するシステムを開発する。研究方針は、最初に、代表的なアフターコーディングであり有用性も高い職業コーディングに注目し、前回科研費(平成25~27年度)で開発済みの「職業コーディング自動化システム」のアルゴリズムを参考にシステムを構築した後、拡張を行う。 [課題1]システム開発のための準備(シソーラスとルール辞書の充実)(平成28年度) [課題2]システムの設計と開発(平成29~30年度) [課題3]システムの評価と自由回答一般への拡張(平成30年度) 今年度は[課題1]について研究した。具体的には以下のとおりである。1システム開発を円滑に進めるために、まずこれまでの研究を総括し、論文「社会学における職業・産業コーディング自動化システムの活用」(『自然言語処理』第24巻1号所収)にまとめた。2その上で、次の2つを行った。(1)2015SSM調査のコーディング(平成26年度実施)で有用であった『職業名索引(厚生労働省)』(労働政策研究・研修機構2011)の掲載情報(約17,600個の職業名と職業コードのペア)を、格フレームに基づくルールベース手法の根幹である「述語シソーラス」「名詞シソーラス」「職業ルール辞書」に追加可能な形式とするため、職業名ごとに形態素解析を行って、各々「述語相当語」と「名詞」に該当する語を自動抽出し、これをシソーラスや職業ルール辞書に追加中である。(2)機械学習で利用する訓練事例の正解について見直しを行った(最終チェックは未完)。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画では、平成28年度中に上記[課題1]の1を終了後に、2を完了する予定であったが、1は達成したものの、2は達成できなかった。達成できなかった理由は以下のとおりである。 (1)については、職業名ごとに形態素解析を行い、「述語相当語」と「名詞」に該当する語を自動抽出するプログラムを作成し、それぞれ「述語シソーラス」と「名詞シソーラス」に追加する語を特定する段階まで完了した。しかし、語の数が非常に多いことと、『職業名索引(厚生労働省)』における職業コードと社会調査で用いられる職業コードが異なっており、両者の間で単純な対応関係がないものがあるために、特にルール辞書への追加作業に予想以上の時間がかかり、完了していない。 (2)については、訓練事例の正解について第一段階のチェックは終了しているが、訓練事例のサイズが約50,000個と膨大なため、熟練コーダによる最終チェックに時間を要している。 (1)(2)とも、[課題2]の研究と並行させながら、平成29年度前期中に完了させる予定である。
|
Strategy for Future Research Activity |
平成29年度は、次の2つの課題について、以下のスケジュールにより研究を推進する。 1[課題1]4月~8月:[現在までの進捗状況]で述べたように、「述語シソーラス」「名詞シソーラス」「職業ルール辞書」を充実させる作業が未完であるため、これを完了する。 2[課題2](1)4月~7月:申請時の計画書で示した仕様を再検討し、最終決定する。具体的には、計画当初は、利用を想定するタブレットPCの性能(特に計算時間)を考慮し、ルールベース手法のみを用いる予定であったが、機械学習(サポートベクターマシン;SVM)においても、訓練事例を学習する部分を独立させれば、未知の事例を分類する時間は長くないことがわかったため、ルールベース手法だけでなくSVMを積極的に適用するアルゴリズムに変更することにした。しかし、SVMの適用が有効であるか否かについては、実験を行って確認しておく必要があるため、必要となる種々の実験も行う。また、ルールベース手法においては、「分類するために不足する情報の発見方法」は研究申請時に考案しているが、SVMにおいては不足情報の発見方法を考案しておらず、大きな課題である。(2)8月:フローチャートを作成し、これに基づくプログラムの作成を依頼する。またタブレットPCを選定し、購入する。(3)9月~10月:プログラム作成のための打ち合わせを随時行いながら、プログラムを完成させる。(4)11月~12月:実験用データを用いてシステムを稼働させ、不具合点を修正する。1月:言語処理学会と数理社会学会で成果発表を発表するための論文執筆と報告要旨の作成を行う。(5)2月~3月:学会発表の準備と発表を行う。また、平成30年度に発表を予定する国際学会を選定し、投稿用論文(英文)の執筆を開始する。
|
Causes of Carryover |
物品費において図書購入を26万円と計上していたが、約2万円しか消化しなかったため、約20万円が未消化となった。
|
Expenditure Plan for Carryover Budget |
次年度に、今年度購入を予定していた図書を購入する。
|
Research Products
(3 results)