2011 年度実績報告書

リンク解析に基づく自然言語処理・テキストマイニング技術の開発

研究課題

研究課題/領域番号	21500141
研究機関	奈良先端科学技術大学院大学
研究代表者	新保仁奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
キーワード	リンク解析 / テキストマイニング / 自然言語処理 / ハブ
研究概要	本年度は,高次元データのハブ節点に着目し研究を行った.ハブとは,データ集合中で,他の数多くのオブジェクトと類似したオブジェクトのことである.自然言語データをはじめとする高次元データでは,本質的にハブが存在する可能性が高いこと(「次元の呪い」と総称される現象の一つである)が報告されている(Radovanovic et al.2010).グラフに基づく手法もその影響を大きく受けるため,これに関する更なる調査を行った.まず,一般のグラフに基づく半教師あり法(Zhu et al.およびZhou et al.の各種ラベル伝搬法など)は,データがグラフとして表現されていることを仮定しており,その際にはk近傍グラフを用いることがほとんどである.われわれは,k近傍グラフがハブを多く出現させることを指摘し,一方,相互k近傍グラフと呼ばれるグラフが相対的にハブを軽減することを実験によって示した.さらに,KleinbergによるHITSと呼ばれるグラフ節点の重要度算出(ランキング)手法と,自然言語処理分野で用いられる知識獲得法の一種であるEspressoブートストラッピング法との類似性にれは前年度・前前年度の本研究の一環として指摘し・発表した)に基づき,HITS上位オブジェクトをトピックドリフト(ブートストラッピングをはじめとするself-training法で,本来獲得したいクラス以外のオブジェクトばかりが獲得されてしまう問題)の予防に積極的に活用する方法を提案し,その有効性を実験によって示した.なお,HITS法で上位にランキングされる事例は,ハブの一種とみなすことができ,従来その負の側面が指摘されてきたが本研究では,ハブを,一種の「負例」として活用した.

研究成果
(4件)

すべて 2011

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件)

[雑誌論文] Semi-supervised classification and betweenness computation on large, sparse, directed graphs2011
- 著者名/発表者名
  A.Mantrach/N.van Zeebroeck/P.Francq/M.Shimbo/H.Bersini/M.Saerens
- 雑誌名
  
  Pattern Recognition
  
  巻: 44 ページ: 1212-1224
- 査読あり
[雑誌論文] A sum-over-paths extension of edit distances accounting for all sequence alignments2011
- 著者名/発表者名
  S.Garcia-Diez/F.Fouss/M.Shimbo/M.Saerens
- 雑誌名
  
  Pattern Recognition
  
  巻: 44 ページ: 1172-1182
- 査読あり
[学会発表] Using the mutual k-nearest neighbor graphs for semi-supervised classification of natural language data2011
- 著者名/発表者名
  K.Ozaki/M.Shimbo/M.Komachi/Y.Matsumoto
- 学会等名
  15th CoNLL
- 発表場所
  Portland, OR, USA
- 年月日
  2011-06-23
[学会発表] HITS-based seed selection and stop-list construction for bootstrapping2011
- 著者名/発表者名
  T.Kiso/M.Shimbo/M.Komachi/Y.Matsumoto
- 学会等名
  49th ACL : Short Papers
- 発表場所
  Portland, OR, USA
- 年月日
  2011-06-21

2011 年度 実績報告書

リンク解析に基づく自然言語処理・テキストマイニング技術の開発

研究代表者

新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)

研究成果

[雑誌論文] Semi-supervised classification and betweenness computation on large, sparse, directed graphs2011

著者名/発表者名

雑誌名

[雑誌論文] A sum-over-paths extension of edit distances accounting for all sequence alignments2011

著者名/発表者名

雑誌名

[学会発表] Using the mutual k-nearest neighbor graphs for semi-supervised classification of natural language data2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HITS-based seed selection and stop-list construction for bootstrapping2011

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実績報告書

新保仁奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)