2005 Fiscal Year Annual Research Report
自然言語処理技術を適用した自由回答コーディング支援システムの開発
Project/Area Number |
16530341
|
Research Institution | Keiai University |
Principal Investigator |
高橋 和子 敬愛大学, 国際学部, 助教授 (30211337)
|
Co-Investigator(Kenkyū-buntansha) |
高村 大也 東京工業大学, 精密工学研究所, 助手 (80361773)
|
Keywords | 自由回答 / コーディング支援 / 機械学習 / サポートベクターマシン / 自然言語処理 / クラス事後確率 / 分類スコア / 平滑化 |
Research Abstract |
平成17年度前半の目標は、コーダ(人間)による職業コーディングの支援システムである「「NANACOシステム」における「類似度」の問題を解決し完成させることであった。これについては、現在使用している「コサイン類似度」の他に、「相互情報量」(Mutual Information)や「情報利得」(Information Gain」による実験を行ったが有効な結果は得られなかった。原因は、職業においては自由回答が非常に短い(「仕事の内容」は助詞も含め平均5語程度)ために、類似度の閾値を高く設定すると全く同一のものしか提示できず、低く設定すると自由回答中の助詞や「従業上の地位」の選択肢が一致するだけで類似すると判断されてしまうことである。そこで、「類似度」の問題はいったん中断し、コーダを支援するための有用な情報提供という観点における別の戦略として、コーダが参考にする、自動コーディングシステムからの出力(職業コード)の「確からしさ」を高精度に推定し、確信度として提示する方法についての研究を行うこととした。これは、昨年度「NANACOシステム」が利用された2つの調査において、コーダ達の要望が最も高かったものであり、また、「NANACOシステム」に限らず、より広範な意思決定の場において有用な研究でもある。先行研究を参考にしながら新たな方法を考案した結果、「11 研究発表」に示すように、「あらかじめ訓練データに対して分類器が出力する複数の分類スコアを利用して正解率表を用意し、間接的にクラス事後確率を推定する方法」を提案し、有効性が示された。しかし、平成17年度後半の目標である「NANACOシステムを一般の自由回答に拡張する」ための枠組みを構築する点については十分な成果が得られておらず、今後の課題としたい。なお、「NANACOシステム」は、前年度の2つの調査に加え、今年度新たに、「JGSS-2005(文部科学省指定学術フロンティア推進研究プロジェクト日本版General Social Surveys2005年調査)」に適用され(平成18年2月)、また「2005年SSM(Social Stratification and social mobility)調査」(「仕事と暮らしに関する全国調査(社会階層と社会移動調査)」(科研費(特別推進研究))への適用が予定されている(平成18年7月)。
|
Research Products
(5 results)