語義判別問題に対する教師なし学習に関する研究

研究課題

研究課題/領域番号	15500083
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	茨城大学
研究代表者	新納浩幸茨城大学, 工学部, 助教授 (10250987)
研究期間 (年度)	2003 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	3,200千円 (直接経費: 3,200千円) 2004年度: 1,500千円 (直接経費: 1,500千円) 2003年度: 1,700千円 (直接経費: 1,700千円)
キーワード	教師なし学習 / ファジークラスタリング / EMアルゴリズム / ベイジアンネットワーク / 語義判別問題 / SENSEVAL-2 / 単語クラスタリング
研究概要	自然言語処理の個々の問題を分類問題に定式化し,帰納学習手法を用いて解決するというアプローチは大きな成功をおさめている.しかしこのアプローチは,大量のラベル付き訓練データを必要とし,その構築コストが高いという問題がある.本研究ではこの問題の解決のために,教師なし学習を試みる.本研究で扱うタスクは語義判別問題に限定する. 昨年度は主にEMアルゴリズムの利用を検討した.特にEMアルゴリズムを適用する際に問題となる最適な繰り返しの推定について新たな手法を提案した.またベイジアンネットの利用も検討した. 本年度は,まず,クラスタリングに焦点を当てた.EMアルゴリズムも一種のクラスタリングの手法であることから,EMアルゴリズムで解決可能な教師なし学習はより一般的にクラスタリングの手法を用いても解決可能である. 本研究ではファジィクラスタリングを用いて昨年度と同じ課題に取り組んだ.結論的にはEMアルゴリズムを用いた方がよい結果となった.語義判別問題では事例の次元数が非常に大きくなるために,実数空間上の距離を基本とするクラスタリングではよい精度が得られないことがわかった.この成果を研究会と国際会議で発表した. また,教師なし学習は通常の帰納学習が大量のラベル付き訓練データを必要とするという問題点の解決から考案されているが,この問題に対しては能動学習を用いるというアプローチもある.本年度は能動学習の利用についても検討を行った.能動学習には標準的にはQBC(Query By Committee)という手法を用いるが,期待損失の考えを応用する研究もあり,本年度はQBCと期待損失を用いた手法を同音異義語問題(本質的には語義判別問題)に適用して比較,考察した.この成果を研究会で発表した.

報告書

(3件)

2004 実績報告書研究成果報告書概要
2003 実績報告書

研究成果
(17件)

すべて 2004 2003 その他

すべて雑誌論文 (11件) 図書 (1件) 文献書誌 (5件)

[雑誌論文] Semi-supervised learning by Fuzzy clustering and Ensemble learning2004
- 著者名/発表者名
  H.Shinnou, M.Sasaki
- 雑誌名
  
  LREC-2004
  
  ページ: 399-402
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] Webページ内の目的部分の自動抽出2004
- 著者名/発表者名
  新納浩幸, 佐々木稔
- 雑誌名
  
  情報処理学会自然言語処理研究会 163-6
  
  ページ: 30-40
- NAID
  110002911725
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] 決定リストと期待損失を用いた同音異義語識別規則の能動学習2004
- 著者名/発表者名
  紺野憲一, 新納浩幸, 佐々木稔
- 雑誌名
  
  言語処理学会第10回年次大会
  
  ページ: 757-760
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] 語義識別の誤り原因の調査とオンザフライの類似語判定2004
- 著者名/発表者名
  藤井丈明, 新納浩幸, 佐々木稔
- 雑誌名
  
  言語処理学会第10回年次大会
  
  ページ: 753-756
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] 検索エンジンを利用した単語クラスタリング2004
- 著者名/発表者名
  大城亜里沙, 新納浩幸, 佐々木稔
- 雑誌名
  
  言語処理学会第10回年次大会
  
  ページ: 17-20
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[雑誌論文] Semi-supervised learning by Fuzzy clustering and Ensemble learning2004
- 著者名/発表者名
  SHINNOU Hiroyuki, SASAKI Minoru
- 雑誌名
  
  LREC-2004
  
  ページ: 399-402
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Information Retrieval System using Latent Contextual Relevance2004
- 著者名/発表者名
  SASAKI Minoru, SHINNOU Hiroyuki
- 雑誌名
  
  LREC-2004
  
  ページ: 457-460
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm2003
- 著者名/発表者名
  SHINNOU Hiroyuki, SASAKI Minoru
- 雑誌名
  
  The Journal of IPSJ Vol.44, No.12
  
  ページ: 3211-3220
- NAID
  110002934366
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Learning of word sense disambiguation rules by Belief Networks2003
- 著者名/発表者名
  SHINNOU Hiroyuki, ABE Shuya, SASAKI Minoru
- 雑誌名
  
  PACLING-03
  
  ページ: 245-248
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Automatic thesaurus construction using word clustering2003
- 著者名/発表者名
  SASAKI Minoru, SHINNOU Hiroyuki
- 雑誌名
  
  PACLING-03
  
  ページ: 55-62
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm2003
- 著者名/発表者名
  SHINNOU Hiroyuki, SASAKI Minoru
- 雑誌名
  
  CoNLL-2003
  
  ページ: 41-48
- NAID
  110002934366
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[図書] 数理統計学の基礎2004
- 著者名/発表者名
  新納浩幸
- 総ページ数
  175
- 出版者
  森北出版
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 実績報告書 2004 研究成果報告書概要
[文献書誌] 新納浩幸, 佐々木稔: "EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習"情報処理学会. 44-12. 3211-3220 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hiroyuki Shinnou, Shuya Abe, Minoru Sasaki: "Learning of word sense disambiguation rules by Belief Networks"PACLING-03. 245-248 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Minoru Sasaki, Hiroyuki Shinnou: "Automatic thesaurus construction using word clustering"PACLING-03. 55-62 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hiroyuki Shinnou, Minoru Sasaki: "Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm"CoNLL-2003. 41-48 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 新納浩幸, 佐々木稔: "多項分布と一様分布の混合分布による語義の事前分布の推定"電子情報通信学会言語理解とコミュニケーション研究会. NLC2003-43. 53-58 (2003)
- 関連する報告書
  2003 実績報告書

語義判別問題に対する教師なし学習に関する研究

研究代表者

新納 浩幸 茨城大学, 工学部, 助教授 (10250987)

3,200千円 (直接経費: 3,200千円)

報告書

研究成果

[雑誌論文] Semi-supervised learning by Fuzzy clustering and Ensemble learning2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Webページ内の目的部分の自動抽出2004

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] 決定リストと期待損失を用いた同音異義語識別規則の能動学習2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 語義識別の誤り原因の調査とオンザフライの類似語判定2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 検索エンジンを利用した単語クラスタリング2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Semi-supervised learning by Fuzzy clustering and Ensemble learning2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Information Retrieval System using Latent Contextual Relevance2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm2003

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Learning of word sense disambiguation rules by Belief Networks2003

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Automatic thesaurus construction using word clustering2003

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm2003

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[図書] 数理統計学の基礎2004

著者名/発表者名

総ページ数

出版者

説明

関連する報告書

[文献書誌] 新納浩幸, 佐々木稔: "EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習"情報処理学会. 44-12. 3211-3220 (2003)

関連する報告書

[文献書誌] Hiroyuki Shinnou, Shuya Abe, Minoru Sasaki: "Learning of word sense disambiguation rules by Belief Networks"PACLING-03. 245-248 (2003)

関連する報告書

[文献書誌] Minoru Sasaki, Hiroyuki Shinnou: "Automatic thesaurus construction using word clustering"PACLING-03. 55-62 (2003)

関連する報告書

[文献書誌] Hiroyuki Shinnou, Minoru Sasaki: "Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm"CoNLL-2003. 41-48 (2003)

関連する報告書

[文献書誌] 新納浩幸, 佐々木稔: "多項分布と一様分布の混合分布による語義の事前分布の推定"電子情報通信学会言語理解とコミュニケーション研究会. NLC2003-43. 53-58 (2003)

関連する報告書

新納浩幸茨城大学, 工学部, 助教授 (10250987)