• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

一般化ピボットでのデータ構造化技術による類似検索の高速化

研究課題

研究課題/領域番号 26330138
研究機関静岡県立大学

研究代表者

池田 哲夫  静岡県立大学, 経営情報学部, 教授 (60363727)

研究分担者 武藤 伸明  静岡県立大学, 経営情報学部, 教授 (40275102)
斉藤 和巳  静岡県立大学, 経営情報学部, 教授 (80379544)
大久保 誠也  静岡県立大学, 経営情報学部, 助教 (90422576)
研究期間 (年度) 2014-04-01 – 2017-03-31
キーワード情報検索 / 類似検索 / クラスタリング
研究実績の概要

前年度に提案した、L1距離を用いた類似検索技法の展開を中心に研究を進めた
1. 検索クエリにはユーザの嗜好などによって何らかの分布が存在すると仮定し,その分布を学習データとしてピボットを構築する方法を考案した。具体的には、新聞記事データを検索対象とし、記事のジャンルをクエリ分布と設定しピボットを構築する方法を提案し、性能向上に有効である見通しを得た[JSAI]。さらにこの方法をベースにして、ピボットとして、(a)あるクラスとその他のクラスのオブジェクトを効率的に枝刈りするためのピボットと、(b)あるクラス内のオブジェクトを効率的に枝刈りするためのピボットの2種類を設ける拡張を行い、性能向上に有効であることを確認した[SIG-DBS]。なお、提案した方式がL1距離の場合には有効であるがL2距離においては相対的に有効性が小さいことの原因分析も行い報告した[FIT]。
2.大量データの活用の観点からは類似検索と並んで重要な技術にクラスタリング技術がある。前処理でピボットを構築してからクラスタ生成を行う方法を提案した[SDM]。クラスタ生成の初期段階(クラスタの重心の入れ替えが頻繁に発生する段階)において、生成性能向上に寄与することを確認した。論文は、データマイニング分野のトップカンファレンスの一つであるSDM(MicrosoftのTop conferences in data miningでは、41の関連国際会議中の5位)に採択され高い評価を受けたと考える。
3. 前年度に提案した、データ可視化結果へのアノテーション自動付与方法を、大量写真データに適用し有効性を確認した[STI]。また、大量画像データに関して、1で述べたピボット構築法で求めた2個のピボットからの距離を元に2次元平面に可視化する方法を提案し有効性を確認した[IPSJ]。
いずれの項目も類似検索および関連する大量データの活用技術に関するものであり、意義の大きい成果と考える。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度は3年計画の2年目である。L1距離への埋め込みを用いる手法が予想以上に有用であることが判明し、実績概要でも説明したように、本年度はL1距離への埋め込みを用いる手法に関する研究を精力的に進め、(1)クエリ分布を考慮したピボット構築法の有用性、(2)ピボット構築法のクラスタリング生成への適用での有用性、(3)大量データの可視化での有用性を明らかにし、外部発表を行った。特に、ピボット構築法のクラスタリング生成への適用での有用性に関しては、論文が、データマイニング分野のトップカンファレンスの一つであるSDM(MicrosoftのTop conferences in data miningでは、41の関連国際会議中の5位)で採択され高い評価を受けたと考える。
いずれの成果も類似検索および関連する大量データの活用技術に関する成果であり、高性能な類似検索技法の確立に向け、おおむね順調な進捗であると考える。

今後の研究の推進方策

平成27年度に引き続き、L1距離への埋め込みを用いるピボット構築法の展開を図る。具体的には、(1)バランス木の各ノードにピボットとオブジェクト集合を対応させるピボット構築法、詳細には、各ノードの一段下位の2ノードを作成する際に、まず2ノードに対応するピボットp1,p2を生成し、次いでp1,p2からの距離順で上位ノードのオブジェクト集合に含まれるオブジェクトをランク付けし、そのランク順にもとづきオブジェクト集合を2分割して2ノードに割り当てることを特徴とする、ピボット構築方法に関して予備実験を行い、性能向上に有望である見通しを得ている。よってこの方法の展開を図る。また、L1距離以外にレーベンシュタイン距離(編集距離)にも適用可能性があることからレーベンシュタイン距離への適用も試みる。(2)クラスタリングへの適用に関しては、同心円構造を用いてピボットを構築することにより、クラスタ生成性能向上に寄与する可能性があることから、この技術の開発も試みる。(3)一昨年度に 提案した可視化結果へのアノテーションを自動付与する手法を、多様なマルチメディアデータに適用して有用性を評価する。

次年度使用額が生じた理由

次年度使用額(67416円)が生じた理由は、年度末に学会・研究会等へ急な出張が発生する場合に備えて、旅費を意識的に余したためである。

次年度使用額の使用計画

次年度使用額(800000円)を併せての、次年度の研究費の使用計画は、消耗品費307416円、旅費560千円(国内学会発表310千円、国際会議発表250千円)、の合計813288円である。

  • 研究成果

    (6件)

すべて 2016 2015

すべて 学会発表 (6件) (うち国際学会 1件)

  • [学会発表] Pivot-based k-means Algorithm for Numerous-class Data Sets2016

    • 著者名/発表者名
      Takashi Hattori, Kazuo Aoyama, Kazumi Saito, Tetsuo Ikeda and Eri Kobayashi,
    • 学会等名
      Proc. of the International Conference on Data Mining (SDM2016)
    • 発表場所
      Miami, Florida, USA
    • 年月日
      2016-05-05 – 2016-05-05
    • 国際学会
  • [学会発表] 画像データを用いたL1ピボット可視化法の評価2016

    • 著者名/発表者名
      島崎 涼, 小林 えり, 斉藤 和巳, 池田 哲夫
    • 学会等名
      情報処理学会第78回全国大会(IPSJ2016)
    • 発表場所
      慶應義塾大学 矢上キャンパス
    • 年月日
      2016-03-10 – 2016-03-12
  • [学会発表] L1距離上でのクラス割り当てピボットによる類似検索2015

    • 著者名/発表者名
      小林 えり, 斉藤 和巳, 池田 哲夫, 青山 一生, 服部 正嗣
    • 学会等名
      第162回DBS研究発表会 (SIG-DBS162),
    • 発表場所
      芝浦工業大学・豊洲キャンパス
    • 年月日
      2015-11-26 – 2015-11-26
  • [学会発表] クエリ分布を考慮した一般化ピボット法の距離定義による特性評価2015

    • 著者名/発表者名
      小林 えり,斉藤 和巳,池田 哲夫,青山 一生,服部 正嗣
    • 学会等名
      第14回情報科学技術フォーラム(FIT2015)
    • 発表場所
      愛媛大学 城北キャンパス
    • 年月日
      2015-09-15 – 2015-09-17
  • [学会発表] Mean-shiftクラスタリングによる類似ユーザ分析法とその性能評価2015

    • 著者名/発表者名
      小林 えり,斉藤 和巳,池田 哲夫
    • 学会等名
      第12回観光情報学会全国大会(STI2015)
    • 発表場所
      石川県金沢市青草町 近江町交流プラザ
    • 年月日
      2015-06-19 – 2015-06-19
  • [学会発表] クエリ分布を考慮した類似検索の高速化2015

    • 著者名/発表者名
      小林 えり,斉藤 和巳,池田 哲夫,青山 一生,服部 正嗣
    • 学会等名
      第29回人工知能学会全国大会(JSAI2015)
    • 発表場所
      北海道函館市 公立はこだて未来大学
    • 年月日
      2015-05-31 – 2015-05-31

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi