研究概要 |
自然言語処理の個々の問題を分類問題に定式化し,帰納学習手法を用いて解決するというアプローチは大きな成功をおさめている.しかしこのアプローチは,大量のラベル付き訓練データを必要とし,その構築コストが高いという問題がある.本研究ではこの問題の解決のために,教師なし学習を試みる.本研究で扱うタスクは語義判別問題に限定する. 昨年度は主にEMアルゴリズムの利用を検討した.特にEMアルゴリズムを適用する際に問題となる最適な繰り返しの推定について新たな手法を提案した.またベイジアンネットの利用も検討した. 本年度は,まず,クラスタリングに焦点を当てた.EMアルゴリズムも一種のクラスタリングの手法であることから,EMアルゴリズムで解決可能な教師なし学習はより一般的にクラスタリングの手法を用いても解決可能である. 本研究ではファジィクラスタリングを用いて昨年度と同じ課題に取り組んだ.結論的にはEMアルゴリズムを用いた方がよい結果となった.語義判別問題では事例の次元数が非常に大きくなるために,実数空間上の距離を基本とするクラスタリングではよい精度が得られないことがわかった.この成果を研究会と国際会議で発表した. また,教師なし学習は通常の帰納学習が大量のラベル付き訓練データを必要とするという問題点の解決から考案されているが,この問題に対しては能動学習を用いるというアプローチもある.本年度は能動学習の利用についても検討を行った.能動学習には標準的にはQBC(Query By Committee)という手法を用いるが,期待損失の考えを応用する研究もあり,本年度はQBCと期待損失を用いた手法を同音異義語問題(本質的には語義判別問題)に適用して比較,考察した.この成果を研究会で発表した.
|