2003 Fiscal Year Annual Research Report
Project/Area Number |
15500083
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 助教授 (10250987)
|
Keywords | 教師なし学習 / EMアルゴリズム / ベイジアンネットワーク / 単語クラスタリング / 語義判別問題 / SENSEVAL-2 |
Research Abstract |
自然言語処理の個々の問題を分類問題に定式化し,帰納学習手法を用いて解決するというアプローチは大きな成功をおさめている.しかしこのアプローチは,大量のラベル付き訓練データを必要とし,その構築コストが高いという問題がある.本研究ではこの問題の解決のために,教師なし学習を試みる.本研究で扱うタスクは語義判別問題に限定する. 本研究は教師なし学習の一種である.ここでは教師なし学習としてEMアルゴリズムを利用する.EMアルゴリズムはベルなしデータに確率付きでクラスへの帰属度を求める.機能学習手法のNaive Bayes法と組み合わせることで,語義識別規則の教師なし学習が可能となる.ただし単純にEMアルゴリズムを用いると,ある繰り返し回数以降は精度が落ちる場合がある.最適な繰り返し回数で停止させなくてはならない.その停止回数を推定する手法を考案した.この研究について国際会議1編,論文誌1編での研究発表を行なった.またベイジアンネットによる教師なし学習も試みた.ベイジアンネットはNaive Bayes法を拡張した手法ともとらえられる.Naive Bayes法は素性に対応する確率変数間の独立性を仮定するが,ベイジアンネットでは一部の確率変数間に従属性を採り入れられる.その部分の条件付き確率の学習にはラベルなしデータが利用できることを示した.この研究について国際会議1編での研究発表を行なった. また教師なし学習はクラスタリングの手法と密接に関係している.先に述べたEMアルゴリズムもクラスタリングの手法とみなせる.クラスタリングを行なう際には,単語を特徴ベクトルに直す必要があり,その際の基底のベクトルとして何を選ぶかが重要である.基底の選び方としてはコーパスをクラスタリングすることから行なえる.本年度はこのクラスタリングを行ない,実際の基底のベクトルを算出した.この研究について国際会議1編の研究発表を行なった.
|
Research Products
(5 results)
-
[Publications] 新納浩幸, 佐々木稔: "EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習"情報処理学会. 44-12. 3211-3220 (2003)
-
[Publications] Hiroyuki Shinnou, Shuya Abe, Minoru Sasaki: "Learning of word sense disambiguation rules by Belief Networks"PACLING-03. 245-248 (2003)
-
[Publications] Minoru Sasaki, Hiroyuki Shinnou: "Automatic thesaurus construction using word clustering"PACLING-03. 55-62 (2003)
-
[Publications] Hiroyuki Shinnou, Minoru Sasaki: "Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm"CoNLL-2003. 41-48 (2003)
-
[Publications] 新納浩幸, 佐々木稔: "多項分布と一様分布の混合分布による語義の事前分布の推定"電子情報通信学会言語理解とコミュニケーション研究会. NLC2003-43. 53-58 (2003)