2010 年度実績報告書

リンク解析に基づく自然言語処理・テキストマイニング技術の開発

研究課題

研究課題/領域番号	21500141
研究機関	奈良先端科学技術大学院大学
研究代表者	新保仁奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
キーワード	自然言語処理 / テキストマイニング / リンク解析
研究概要	本年度の主要な成果は以下の通り (1)前年度開発した系列アラインメントの重み学習法に文法制約を組み合わせる並列構造の推定法を発展させ,その有効性を検証するとともに誤り傾向の分析を行った.文法的な制約(並列句どうしはオーバーラップしない,等)を文法規則によって強制したうえで,並列句の範囲同定には並列句間の単語列の編集距離を素性として用い,パーセプトロン学習によって素性重みを最適化する (2)リンク解析手法を非グラフデータに適用する際には,一旦データをグラフに変換しなければならない.そのための手法としては一般に,k-近傍グラフ(データ点各々について,最も類似するk個のデータ点を辺で結ぶ)が用いられる.我々はこのグラフ変換法を自然言語データ(語義曖昧性解消用のベンチマークデータ)に適用し,評価・分析を行った.その結果、少数のハブと呼ばれる数多くの節点と接続された節点が生成され,後続のリンク解析に基づく半教師あり学習の精度に悪影響を与えることがわかった.その原因はk-近傍関係が非対称であることにより,これを解消するための簡単な手法を考案した.(3)自然言語処理でリソース拡張のためにしばしば用いられる,ブートストラップ(自己トーレニング)法において,初期シード選択およびストップリスト構築にリンク解析を用いる手法を考案し,予備調査によって有効性を確認した (2),(3)については,平成23年度に,より詳細な評価を多くの自然言語データを用いて分析し,公表することを予定している

研究成果
(3件)

すべて 2010

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

[雑誌論文] 文法制約と系列アラインメントによる並列構造の解析2010
- 著者名/発表者名
  原一夫, 新保仁, 松本裕治
- 雑誌名
  
  人工知能学会論文誌
  
  巻: Vol.25 ページ: 560-569
- 査読あり
[雑誌論文] The sum-over-paths covariance kernel : a novel covariance measure between nodes of a directed graph2010
- 著者名/発表者名
  A.Mantrach, L.Yen, J.Callut, K.Francoisse, M.Shimbo, M.Saerens
- 雑誌名
  
  IEEE Transactions on Pattern Analysis and Machine Intelligence
  
  巻: 32 ページ: 1112-1126
- 査読あり
[学会発表] Normalized sum-over-paths edit distances2010
- 著者名/発表者名
  Silvia Garcia Diez, Francois Fouss, Masashi Shimbo, Marco Saerens
- 学会等名
  International Conference on Pattern Recognition
- 発表場所
  Istanbul, Turkey
- 年月日
  2010-08-24

2010 年度 実績報告書

リンク解析に基づく自然言語処理・テキストマイニング技術の開発

研究代表者

新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)

研究成果

[雑誌論文] 文法制約と系列アラインメントによる並列構造の解析2010

著者名/発表者名

雑誌名

[雑誌論文] The sum-over-paths covariance kernel : a novel covariance measure between nodes of a directed graph2010

著者名/発表者名

雑誌名

[学会発表] Normalized sum-over-paths edit distances2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

新保仁奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)