• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実績報告書

高次元・構造化データに適したリンク解析的類似度尺度の研究

研究課題

研究課題/領域番号 24300057
研究機関奈良先端科学技術大学院大学

研究代表者

新保 仁  奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)

研究分担者 原 一夫  国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
研究期間 (年度) 2012-04-01 – 2015-03-31
キーワードデータマイニング / リンク解析 / 類似度 / 高次元データ
研究概要

過去, 数々の計量書誌学尺度やリンク解析手法によるグラフ節点間類似度尺度が提案されている. これらの手法の有用性は知られているが, いずれもハブ (他の多数の節点と繋がりを持つ節点) の存在・影響を意識せずに設計されている. さらに最近, データが高次元空間上にある場合には, ほとんどの場合ハブオブジェクト (他の多くのオブジェクトと類似しているオブジェクト) が出現し, 最近傍法などに悪影響を及ぼすことが報告された. 本研究では, これらハブ節点・ハブオブジェクトの影響調査と, その軽減法の開発を目的としている.
研究初年度に引き続き, 各種自然言語処理タスクを題材にハブオブジェクトの軽減を試みた. 大きな成果として, データの「センタリング」がハブの軽減に有効であること, を発見したことが挙げられる. センタリングは古典的なデータ前処理法であるが, 自然言語データにおいてはセンタリングが前処理として行われるケースは極めて稀である. 機械学習分野で主流である距離ベースの手法ではセンタリングに効果がないことも, このような背景に寄与していると思われる. 我々は, 内積ベースの類似度を用いる場合には, センタリングがハブを削減するという点で有効に働くことを明らかにし, 実際タスク精度も向上することを確認した. この成果については EMNLP 2013 にて報告を行った.
また, 応用タスクとして有望な, 単語・句のベクトル空間への写像方法に関する成果について, これも EMNLP 2013 にて発表した.
さらに, 初年度の成果を発展させた, (1) ランダムウォークに基づく文脈類似度測定法, および (2) 近傍グラフにおけるハブ節点の削減法に関する成果を, 人工知能学会誌にて公表した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

引き続き, 自然言語処理タスクにおけるハブの影響調査と, その軽減法について研究を行った.
計画に沿って, 新たなハブの軽減法 (センタリング) の提案およびその厳密な性能調査を行い, 対訳抽出など新しい自然言語タスクでの同手法の有効性についても予備調査を行った.

今後の研究の推進方策

ハブ軽減に関するセンタリングの有効性を確立できたが, 同手法は内積ベースの類似度尺度を用いた場合にしか適用できない, という制限がある. タスクによっては距離ベースの類似度尺度が適切な場合も多々あるため, 今後はそういった場合にも適用可能なハブ軽減法の開発を目標に研究を行う予定である.

次年度の研究費の使用計画

計画の達成度には差し障りがないが, 年度当初計画していた研究のためのコード・リソース整備について状況の変化があったため再検討を行い, 使途について見直すこととした.
研究開始当初は, 自前でのリソース整備を計画していたが, 一般の公開データがさらに充実してきたこと・取り組むタスクが研究の進展にともない変化してきたこと, といった理由から, それらリソース購入代などに充当することにした. 本年度, リソース整備作業はデータよりはコードの整備を中心に取り組むことにする.

  • 研究成果

    (8件)

すべて 2014 2013

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (5件)

  • [雑誌論文] Developments in the theory of randomized shortest paths with a comparison of graph node distances2014

    • 著者名/発表者名
      Ilkka Kivimaeki, Masashi Shimbo, and Marco Saerens
    • 雑誌名

      Physica A: Statistical Mechanics and its Applications

      巻: 393 ページ: 600-616

    • DOI

      10.1016/j.physa.2013.09.016

    • 査読あり
  • [雑誌論文] 文法的・意味的共起を利用した単語類似度の計算2013

    • 著者名/発表者名
      原一夫, 鈴木郁美, 新保仁, 松本裕治
    • 雑誌名

      人工知能学会論文誌

      巻: 28 ページ: 379-390

    • DOI

      10.1527/tjsai.28.379

    • 査読あり
  • [雑誌論文] 相互k-近傍グラフを用いた半教師あり分類2013

    • 著者名/発表者名
      小嵜 耕平, 新保 仁, 小町 守, 松本 裕治
    • 雑誌名

      人工知能学会論文誌

      巻: 28 ページ: 400-408

    • DOI

      10.1527/tjsai.28.400

    • 査読あり
  • [学会発表] 対訳抽出におけるハブの影響2014

    • 著者名/発表者名
      重藤優太郎, 新保仁, 松本裕治
    • 学会等名
      言語処理学会第20回年次大会 発表論文集
    • 発表場所
      北海道大学 (北海道札幌市)
    • 年月日
      20140318-20140320
  • [学会発表] 文の意味構成に伴う高次元空間の最適化と単語表現学習2014

    • 著者名/発表者名
      椿真史, Kevin Duh, 新保仁, 松本裕治
    • 学会等名
      言語処理学会第20回年次大会 発表論文集
    • 発表場所
      北海道大学 (北海道札幌市)
    • 年月日
      20140318-20140320
  • [学会発表] インスタンス抽出パターンの拡張による語彙獲得2014

    • 著者名/発表者名
      白井尊昭, 新保仁, 松本裕治
    • 学会等名
      言語処理学会第20回年次大会 発表論文集
    • 発表場所
      北海道大学 (北海道札幌市)
    • 年月日
      20140318-20140320
  • [学会発表] Modeling and Learning Semantic Co-Compositionality through Prototype Projections and Neural Networks2013

    • 著者名/発表者名
      Masashi Tsubaki, Kevin Duh, Masashi Shimbo, and Yuji Matsumoto
    • 学会等名
      Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)
    • 発表場所
      Seattle, WA, USA
    • 年月日
      20131018-20131021
  • [学会発表] Centering Similarity Measures to Reduce Hubs2013

    • 著者名/発表者名
      Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, Marco Saerens, and Kenji Fukumizu
    • 学会等名
      Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)
    • 発表場所
      Seattle, WA, USA
    • 年月日
      20131018-20131021

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi