• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

大規模高次元データの近傍検索・分類に適した類似度尺度の研究

Research Project

Project/Area Number 25730142
Research InstitutionNational Institute of Genetics

Principal Investigator

鈴木 郁美  国立遺伝学研究所, 生命情報研究センター, 特任研究員 (20637730)

Project Period (FY) 2013-04-01 – 2017-03-31
Keywordsハブネス / ローカライズドセンタリング / データ中心化 / 近傍法
Outline of Annual Research Achievements

近年,観測技術やインターネットの発達に伴い,データが大量に蓄積されるようになってきた.蓄積されたデータの解析は重要な課題である.本研究では,高次元データに現れるハブネスの問題と蓄積されたテキストデータの再利用性を上げる研究を行った.
データが高次元であるとき「次元の呪い」と言われる現象が起こる.ごく最近,データ中心に近い事例が,次元が高くなると非常に多くの事例と距離が近くなる現象が報告された.この事例はハブと呼ばれ,ハブは他の事例の近傍に頻出する.このようなハブに対し,これまで我々は,グローバルなデータ中心との類似度を各事例について等しくすること(センタリング)で,ハブを軽減する方法を試みてきた.
一方,これまでデータが高次元になるとハブが出現すると言われてきたが,データセットに含まれる事例が多いと,性質のことなるハブが出現することを発見した.このようなハブは,グローバルなセントロイドとの相関は弱く,ローカルなセントロイドとの相関が強いをことを見つけた.そして,ローカライズドセンタリング法を提案し,事例数が大きい場合に出現するハブの軽減に成功した.また,ローカライズドセンタリングは,高次元データに出現するハブを軽減するのにも有効であることを示した.
知識は,大量のテキストとして蓄積されている.しかし,個々の知識はそれぞれの本などにとどまり,同じことや似たことを書かれたテキストをまとめる,マージする作業は機械には困難である.本研究では,テキストに書かれた知識の再利用性を上げるために,単文化の作業を行った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

大規模高次元データについて以下の取り組みを行った.
1.ハブネスの問題は,高次元データにおける問題として知られていたが,まず,データ数が大きくなるとハブが出現する,そしてそのハブは従来知られていたセントロイドとの相関は弱い,新たなハブであることを発見した.
2.1で述べた新たなハブについて,その性質を調べた結果,ローカルなセントロイドとの相関が強く,そのハブを軽減する方法として,ローカライズドセンタリングを提案した.
3.大量のテキストの再利用性を上げるために,テキストの単文化を行い,知識のマージや集約を行うための基盤作りを行った.

Strategy for Future Research Activity

今後の課題は,
1.これまで,ハブの軽減法(センタリング,ローカライズドセンタリング)は教師なし学習法である.一方で,ハブは常に良くないものでもないので,ハブを活かすための半教師あり,教師なし学習に取り組む.
2.近傍法は,機械学習や人工知能の技術に組み込まれている基本的な方法である.これまで通り,基礎的な解析を行うと共に,実世界で用いられるアプリケーションへの有効性を示してく.

Causes of Carryover

ハブを軽減する理論解析,手法の開発を重点的に行ったが,その応用については,更なる実験の補強を行う必要があるため,次年度に延期することにした.

Expenditure Plan for Carryover Budget

これまでは,ハブの軽減の理論的解析,手法開発を行ってきた.次年度使用計画として,その応用に効果を示し,論文投稿のための校正などにあてる予定である.

  • Research Products

    (2 results)

All 2015 2014

All Presentation (2 results)

  • [Presentation] Localized Centering: Reducing Hubness in Large-Sample Data2015

    • Author(s)
      Kazuo Hara, Ikumi Suzuki, Masashi Shimbo, Kei Kobayashi, Kenji Fukumizu, Milos; Radovanovic
    • Organizer
      the 29th AAAI Conference on Artificial Intelligence (AAAI)
    • Place of Presentation
      Austin Texas, USA
    • Year and Date
      2015-01-25 – 2015-01-30
  • [Presentation] Annotating Cohesive Statements of Anatomical Knowledge Toward Semi-automated Information Extraction2014

    • Author(s)
      Kazuo Hara, Ikumi Suzuki, Kousaku Okubo and Isamu Muto
    • Organizer
      The International Conference on Knowledge Discovery and Information Retrieval (KDIR)
    • Place of Presentation
      Rome, Italy
    • Year and Date
      2014-10-21 – 2014-10-24

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi